AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI大模型那么强,它是吃什么长大的?

发布日期:2025-01-24 19:35:25 浏览次数: 2223 来源:一叶不扁舟
推荐语

推荐语:
**内容简介**:深入解读 AI 大模型强大的原因,揭秘其训练数据集的奥秘。
**内容大纲**:
1. 大模型强大的关键在于数据“吃得多且好”
2. 训练数据集的要求
3. 数据集的产生过程

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

AI为什么那么强?大模型为什么那么厉害?


是因为它“吃的好”!而且“吃的多”! 

 

吃的好是什么意思呢?就是它从小到大,学习了非常高质量的数据,几乎把人类所有优质的内容都学了一遍。 

 

吃的多是什么意思呢?就是它从小到大,学习了海量的高质量数据,几乎把人类互联网上能看到的都学了一遍。 

 

过去的AI模型不够厉害,有一个关键原因,就是“吃的不够多,吃的也不够好”。 

 

现在的AI模型厉害,恰恰是因为它“吃的多,也吃的好”! 

 

那具体而言,大模型它在训练过程中,到底学习了哪些高质量数据呢? 

 

这篇文章就来分享,有关大模型训练数据集的内容。 

 

01 训练数据集的要求

 

如果想要训练出一个强大的大模型,必须要给它喂养高质量、大规模、以及丰富多彩的数据集。 

 

高质量,目的是为了提高模型的精度和可解释性,从而减少训练时长。如果都是一堆低质量数据,那大模型训出来也是低智能的AI,因为大模型训练遵循“Garbage in Garbage out”的原则。 

 

大规模,指的是大模型所需要的训练数据,数量要大、训练参数也大,这样得到的预训练模型效果才会越好。如果数据量太小,那达不到涌现的程度,大模型自然也就不会那么智能。 

 

丰富多彩,目的是为了提高模型的泛化能力,也就是说,遇到新的数据,它也能够处理。如果泛化能力弱,那么遇到新的场景和问题,它就变成傻子了。所以训练数据集必须包含多个领域的知识,单一数据容易出现过拟合现象。 

 

02 数据集的产生过程

 

既然大模型既要“吃的多”,又要“吃的好”,该如何才能满足它的这两个要求呢? 

 

这个时候,就需要建立一套完整的数据集搭建过程,来保证最后的数据集质量,具体的搭建过程包含三步。 

 

第一步,数据采集。从多个渠道,采集各种类型的数据,可以包括音频、视频、文本、图片等各种数据。 

 

第二步,数据清洗。这一步是为了提升数据质量,把那些噪声数据、重复数据,以及缺失数据进行处理。 

 

第三步,数据标注。也是数据集搭建过程中,最重要的一环节。往往会根据不同的需求,指定相应的数据标注规则,然后每一个标注任务都有不同的规范和标注点要求,一般由标注员来完成。 

 

现在我们看到的大模型,背后使用的海量数据,有很多标注员的工作参与其中,一般来说,一个标注任务将会分配给多个标注员去完成。 

 

做完前面的三步之后,数据集的搭建就基本完成了。后面的工作,就是对模型进行训练,以及模型测试,最后做模型评估。 

 

模型训练,是指技术人员利用已经标注好的数据,训练需要的算法模型。模型测试,是指审核员进行模型测试,并反馈技术人员,并不断调整参数。模型评估,是指上线前做最后的评估。 

 

03 数据标注的分类

 

前面提到,数据标注是数据集搭建过程中,最重要也是最核心的一个环节,那具体有哪些数据标注的种类呢? 

 

具体而言,主要有三种,分别是文本数据标注,语音数据标注,以及图像数据标注 

 

文本数据标注,常见的任务有:文本分类、OCR转写、实体标注、情感标注、意图标注、语义标注等。简单来说,就是给你一段文本,让你给这段文本根据上面的类别,打上具体的标签。 

 

文本标注完成之后,会有相对应的技术人员,使用一些算法来去评估文本标注的质量,比如BLEU算法,ROUGE算法等。 

 

语音数据标注,常见的任务有:发音校对、语音清洗、语音切割、韵脚标注、音素标注、情绪判定等。简单来说,就是给你一段音频文件,你需要根据上面的任务分类,给它打上具体的标签。 

 

语音数据标注完成后,会有对应的技术人员,使用算法对语音标注额质量进行评估,比如WER算法和SER算法等。 

 

图像数据标注,常见的任务有:实体分割,线段标注、目标跟踪标注。简单来说,就是给你一张图片,然后你需要对这个图片里的内容,根据上述的分类,打上具体的标签。 

 

图像数据标注完成后,同样会有对应的技术人员,使用一定的算法对标注结果进行评估,比如MV算法、EM算法、RY算法等。 

 

上面这些内容,就是数据标注中具体的事项,但还有一点没有说,就是这些数据到底从何而来? 

 

04 主流数据集

 

既然参数量和数据量是判断大模型的重要参数,那大模型的训练数据集究竟从何而来呢? 

 

这里拿GPT模型来举例,2018年的GPT-1数据集约4.6GB,2020年GPT-3的数据集达到了753GB,这些数据集来源主要包含六类: 

 

1.维基百科:它是多语言的百科全书 

2.书籍:用来训练模型的故事讲述能力和反应能力,主要包括小说和非小说两大类。比如说,Project Gutenberg是一个拥有7万多本免费电子书的图书馆,BookCorpus里面有海量的作家未出版的书籍。 

3.期刊:包含了各种各样的许多领域的期刊。 

4.WebText:它主要是来自Reddit社区网站的高赞文章,类似于中国的知乎,里面有大量主流的优质额文本内容。 

5.Common Crawl:里面包含了2008年至今的所有爬虫数据。 

6.其它数据集:比如Github代码数据集,视频字幕数据集,The Pile数据集等。 

 

正是因为有了上面这6种丰富的数据集来源,才能让大模型的预训练成为可能。 

 

尾声:

 

大模型到底是吃什么长大的?想必看完今天的分享,你应该有了答案。 

 

它不仅吃的多,而且还吃的好。正是因为大模型的训练数据集满足,大规模、高质量、丰富性高、这三个特点,所以才会在预训练结束后的基础模型中,就涌现出了智能。 

 

当然数据集的搭建过程,也是一个漫长且需要专业的工作,包括了数据采集、数据清洗、以及数据标注,其中标注是最重要的环节,包含了对文本、语音、以及图像内容的标注。 

 

如果你也想要训练属于自己的大模型,那你一定要考虑好,是否有足够多且足够好的数据,来去喂养它。 

 

作为普通人而言,如果没有训练大模型的打算,那就尽快坐享渔翁之利,好好的把AI和大模型利用起来吧! 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询