2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

《大模型训练数据白皮书》:大模型是数据要素价值释放的最短路径

发布日期:2024-06-21 06:38:03 浏览次数: 3970
作者:首席数字官

微信搜一搜,关注“首席数字官”


5月24日,由阿里研究院牵头,阿里巴巴集团、数字中国研究院(福建)、阿里云智能集团联合编写的《大模型训练数据白皮书》正式发布。


关注【首席数字官】,回复关键词“20240606”即可获取大模型训练数据白皮书完整版。


自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。


大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制。而促进高质量训练数据的建设,需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用;需要构建共享、共创、共赢的合作生态和更开放的环境,不囿于版权等制度所存在的争议;需要给技术的发展预留空间,并相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一,我们希望中国的大模型发展,可以在数据方向上有所突破,助力我国在国际竞争中取得优势地位。


本白皮书首先分析了大模型训练所需的数据类型,并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上,本书进而对训练数据的质量和规模进行讨论,发现高质量数据应在实践中检验效果,而难以用前置的客观标准衡量。同时,本书探讨了合成数据作为解决高质量训练数据供给不足的新方案,及其在大模型训练中的潜力。在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。最后,本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性,并以阿里巴巴的实践为案例做说明和阐述。



内容目录与精彩节选










01

训练数据对大模型发展的重要性


算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。




02

模型训练所需的数据类型


数据作为大模型训练的基础,提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。

1、训练大语言模型的数据


大语言模型所需要的数据内容与质量将根据训练的阶段有所不同,包括预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,三个阶段分别需要的语料特征可以概括为“广”、“齐”和“专”。


2、训练多模态模型的数据


多模态模型则模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,其在训练阶段更多地需要大量图像-文本对、视频-文本对等有标注数据集。


3、训练数据的常见疑问和误解


本书认为,大模型训练数据主对语料库等知识性内容有强烈需求,大大模型训练并不依赖用户个人信息;中文语料短缺不是制约我国大模型发展的重要因素,但中式价值观类语料的短缺可能会成为制约我国大模型发展的短板。





03

科学理解高质量数据的含义与作用


在生成式人工智能时代,模型训练的成功与否与所依赖的数据质量息息相关。模型的能力很大程度上可以反映出其训练数据的质量,这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。

1、高质量数据的重要性

高质量数据可以更好地模拟客观世界,将其作为训练数据可增强模型能力。
从模型能力表现来看,一是高质量数据可以提升模型的准确性和稳定性,二是高质量数据具有多样性,可以降低模型对特定数据集的依赖,提升鲁棒性和泛化能力。


2、高质量数据的标准

高质量数据的类型具有三重不确定性,包括所需的语料种类的不确定性、语料形态演化的不确定性以及不同数据类型之间有效搭配的不确定性。
而其评判具体标准需依据模型需求、训练阶段及目标任务多维度动态界定。




04

合成数据作为解决
训练数据供给不足的新方案


合成数据是通过算法和数学模型创建的,可用以补充或替代真实数据进行模型训练。合成数据作为应对训练数据短缺的新方案,将有利于平衡数据需求与合规要求,推动AI技术的可持续发展。


1、训练数据供给不足带来的思考

人们正在积极探索新数据源,以缓解训练语料可能面临不足的问题。而利用模型或算法批量生成新数据,比如合成数据,并作为训练数据供给不足的新方案,则获得大量讨论。

2、合成数据的定义

合成数据是通过算法和数学模型创建的。首先建模真实数据的分布,然后在该分布上进行采样,创建出新数据集,模拟真实数据中的统计模式和关系。

3、合成数据的必要性

需要合成数据的本质原因是真实世界中获取数据遇到困难,表现在真实世界中难以观测,数据获取的成本高,以及数据获取和处理涉及到真实世界中的个信等方面。

4、合成数据的生成方法及分类

根据是否基于实际数据集生成,合成数据生成方法主要分为基于真实数据集构建,和通过使用现有模型或者人类专业背景知识来创建等两类。根据用于训练的AI类型,可以将合成数据分为应用于生成式AI和判别式AI训练两类。

5、合成数据在大模型训练中的作用

合成数据作为真实数据的一种替代,未来发展潜力巨大,可作为一个“新物种”密切关注;此外,目前合成数据可被应用于提升对齐阶段的数据获取效率。


6、解决训练数据供给不足的新方案

合成数据为模型数据供给提供了新的技术方案,帮助解决高质量训练数据供给不足的问题,包括拓展训练数据的多样性、提高模型的安全性和可靠性、用户隐私保护和数据获取合规性等方面。

7、在发展中治理的合成数据

相比于对合成数据量的扩增,在应用中要更重视质的提升;
合成数据本身具备良好的安全性,在后续使用中较为可靠;对合成数据仍需设置相应的安全管控策略,确保模型整体的安全性不会因为合成数据的使用而受到影响。




05
对大模型训练数据治理的思考


对大模型训练数据的治理思考集中于如何科学构建高质量数据生态,以及确保数据的公平性、多样性和真实性。大模型训练数据的治理是一个动态平衡、多方协作过程,需在技术创新与制度建设间寻找最优解,以促进人工智能的健康发展。

1、大模型对训练数据的使用特点

大模型在使用训练数据时展现出以下特点:
大模型训练数据在训练阶段并不依赖个人信息,而更侧重于全球知识与高质量语料;对于版权类数据主要采取了转换性使用,更偏向于合理使用或法定许可。

2、大模型训练数据合规的治理之智

|基于大模型对训练数据的使用特点,应构建顺应模型发展的新时代的数据治理制度,包括重视数据的可及性,提升模型安全训练数据的供给,以及应用新技术以提升训练数据的合规性和安全性等方面。





06

政府与社会力量协同的训练数据生态


通过中美对比,我们倡导政府与社会力量的协同,共同推动数据要素的有效流通与应用,为大模型的训练提供充足、高质量的数据支持,进而促进人工智能技术的健康发展与广泛应用。


1、美国的现状


美国在获取大模型数据方面的现状体现了政府与社会力量的紧密合作。美国联邦政府发挥了AI训练数据“汇聚融合”的角色,而美国社会力量则整合了政府数据与网络公开数据,并形成高质量训练语料。


2、中国的现状

我国尚未形成对大模型提供有效供给的数据资源生态。
我国的公共数据覆盖范围比美国更广,但在开放共享和开发利用程度上仍有不足;我国的社会力量则主要是结合海外优质开源数据集及中文语料,产出训练数据集。






07

阿里巴巴集团在大模型训练与应用的案例


阿里巴巴集团在大模型的训练与应用探索中,展现出多方位的创新实践:在探索不同数据类型之间的有效搭配时,阿里巴巴达摩院在语料学习顺序中进行了“数据课程”的设计;在处理个人信息方面,采取严格措施,减少个人信息收集;在合成数据的探索和应用方面,在电商场景尝试通过合成数据实现LLM与推荐系统结合,更好地推理用户真实需求。这些系列举措体现了阿里巴巴集团在大模型领域的深度布局与全面实践。




08

以更开放和务实的方式
解决高质量训练数据供给


解决高质量训练数据供给问题,需采取务实、多元、开放策略,理解模型数据需求,协调政府与社会资源,构建共赢生态。制度设计应为技术进步留空间,优先考虑数据可及性,适度放松输入端管控并以事后监管应对风险,鼓励合理使用版权数据与合成数据。实践中,政府应推动公共数据开放,企业则积极探索数据构建方法,借助市场机制评判数据价值。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅