《大模型训练数据白皮书》：大模型是数据要素价值释放的最短路径

发布日期：2024-06-21 06:38:03 浏览次数： 3970

作者：首席数字官

微信搜一搜，关注“首席数字官”

5月24日，由阿里研究院牵头，阿里巴巴集团、数字中国研究院（福建）、阿里云智能集团联合编写的《大模型训练数据白皮书》正式发布。

关注【首席数字官】，回复关键词“20240606”即可获取《大模型训练数据白皮书》完整版。

自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来，我国数据要素建设不断深入，在国家数据局等17部门联合印发的《“数据要素×”三年行动计划（2024—2026年）》进一步明确“建设高质量语料库和基础科学数据集，支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展，可以有效解决我国人工智能，特别是大模型研发所面临的数据瓶颈，进一步发挥大模型对于世界知识数据的汇集和处理能力，创造更大的生产力，助力我国从数据经济走向智能经济新发展模式。

大模型是数据要素价值释放的最短路径，通过理解其训练所使用的数据类型，可以更好理解大模型发挥价值的内在机制。而促进高质量训练数据的建设，需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用；需要构建共享、共创、共赢的合作生态和更开放的环境，不囿于版权等制度所存在的争议；需要给技术的发展预留空间，并相信随着技术的日益成熟，相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一，我们希望中国的大模型发展，可以在数据方向上有所突破，助力我国在国际竞争中取得优势地位。

本白皮书首先分析了大模型训练所需的数据类型，并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上，本书进而对训练数据的质量和规模进行讨论，发现高质量数据应在实践中检验效果，而难以用前置的客观标准衡量。同时，本书探讨了合成数据作为解决高质量训练数据供给不足的新方案，及其在大模型训练中的潜力。在训练数据合规方面，针对模型训练的特点，本书提出顺应模型发展的数据治理思路。最后，本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性，并以阿里巴巴的实践为案例做说明和阐述。

内容目录与精彩节选

训练数据对大模型发展的重要性

算法、算力与数据，是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。

模型训练所需的数据类型

数据作为大模型训练的基础，提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据，随着技术的演进，大模型所需的数据是对知识性内容有强需求，是一种新的类型。

1、训练大语言模型的数据

大语言模型所需要的数据内容与质量将根据训练的阶段有所不同，包括预训练（Pre-training）、监督微调（SFT）、基于人类反馈的强化学习（RLHF）三个阶段，三个阶段分别需要的语料特征可以概括为“广”、“齐”和“专”。

2、训练多模态模型的数据

多模态模型则模拟人类大脑处理信息的方式，把各种感知模态结合起来，以更全面、综合的方式理解和生成信息，其在训练阶段更多地需要大量图像-文本对、视频-文本对等有标注数据集。

3、训练数据的常见疑问和误解

本书认为，大模型训练数据主对语料库等知识性内容有强烈需求，大大模型训练并不依赖用户个人信息；中文语料短缺不是制约我国大模型发展的重要因素，但中式价值观类语料的短缺可能会成为制约我国大模型发展的短板。

科学理解高质量数据的含义与作用

在生成式人工智能时代，模型训练的成功与否与所依赖的数据质量息息相关。模型的能力很大程度上可以反映出其训练数据的质量，这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。

1、高质量数据的重要性

高质量数据可以更好地模拟客观世界，将其作为训练数据可增强模型能力。从模型能力表现来看，一是高质量数据可以提升模型的准确性和稳定性，二是高质量数据具有多样性，可以降低模型对特定数据集的依赖，提升鲁棒性和泛化能力。

2、高质量数据的标准

高质量数据的类型具有三重不确定性，包括所需的语料种类的不确定性、语料形态演化的不确定性以及不同数据类型之间有效搭配的不确定性。而其评判具体标准需依据模型需求、训练阶段及目标任务多维度动态界定。

合成数据作为解决
训练数据供给不足的新方案

合成数据是通过算法和数学模型创建的，可用以补充或替代真实数据进行模型训练。合成数据作为应对训练数据短缺的新方案，将有利于平衡数据需求与合规要求，推动AI技术的可持续发展。

1、训练数据供给不足带来的思考

人们正在积极探索新数据源，以缓解训练语料可能面临不足的问题。而利用模型或算法批量生成新数据，比如合成数据，并作为训练数据供给不足的新方案，则获得大量讨论。

2、合成数据的定义

合成数据是通过算法和数学模型创建的。首先建模真实数据的分布，然后在该分布上进行采样，创建出新数据集，模拟真实数据中的统计模式和关系。

3、合成数据的必要性

需要合成数据的本质原因是真实世界中获取数据遇到困难，表现在真实世界中难以观测，数据获取的成本高，以及数据获取和处理涉及到真实世界中的个信等方面。

4、合成数据的生成方法及分类

根据是否基于实际数据集生成，合成数据生成方法主要分为基于真实数据集构建，和通过使用现有模型或者人类专业背景知识来创建等两类。根据用于训练的AI类型，可以将合成数据分为应用于生成式AI和判别式AI训练两类。

5、合成数据在大模型训练中的作用

合成数据作为真实数据的一种替代，未来发展潜力巨大，可作为一个“新物种”密切关注；此外，目前合成数据可被应用于提升对齐阶段的数据获取效率。

6、解决训练数据供给不足的新方案

合成数据为模型数据供给提供了新的技术方案，帮助解决高质量训练数据供给不足的问题，包括拓展训练数据的多样性、提高模型的安全性和可靠性、用户隐私保护和数据获取合规性等方面。

7、在发展中治理的合成数据

相比于对合成数据量的扩增，在应用中要更重视质的提升；合成数据本身具备良好的安全性，在后续使用中较为可靠；对合成数据仍需设置相应的安全管控策略，确保模型整体的安全性不会因为合成数据的使用而受到影响。

05
对大模型训练数据治理的思考

对大模型训练数据的治理思考集中于如何科学构建高质量数据生态，以及确保数据的公平性、多样性和真实性。大模型训练数据的治理是一个动态平衡、多方协作过程，需在技术创新与制度建设间寻找最优解，以促进人工智能的健康发展。

1、大模型对训练数据的使用特点

大模型在使用训练数据时展现出以下特点：大模型训练数据在训练阶段并不依赖个人信息，而更侧重于全球知识与高质量语料；对于版权类数据主要采取了转换性使用，更偏向于合理使用或法定许可。

2、大模型训练数据合规的治理之智

|基于大模型对训练数据的使用特点，应构建顺应模型发展的新时代的数据治理制度，包括重视数据的可及性，提升模型安全训练数据的供给，以及应用新技术以提升训练数据的合规性和安全性等方面。

政府与社会力量协同的训练数据生态

通过中美对比，我们倡导政府与社会力量的协同，共同推动数据要素的有效流通与应用，为大模型的训练提供充足、高质量的数据支持，进而促进人工智能技术的健康发展与广泛应用。

1、美国的现状

美国在获取大模型数据方面的现状体现了政府与社会力量的紧密合作。美国联邦政府发挥了AI训练数据“汇聚融合”的角色，而美国社会力量则整合了政府数据与网络公开数据，并形成高质量训练语料。

2、中国的现状

我国尚未形成对大模型提供有效供给的数据资源生态。我国的公共数据覆盖范围比美国更广，但在开放共享和开发利用程度上仍有不足；我国的社会力量则主要是结合海外优质开源数据集及中文语料，产出训练数据集。

阿里巴巴集团在大模型训练与应用的案例

阿里巴巴集团在大模型的训练与应用探索中，展现出多方位的创新实践：在探索不同数据类型之间的有效搭配时，阿里巴巴达摩院在语料学习顺序中进行了“数据课程”的设计；在处理个人信息方面，采取严格措施，减少个人信息收集；在合成数据的探索和应用方面，在电商场景尝试通过合成数据实现LLM与推荐系统结合，更好地推理用户真实需求。这些系列举措体现了阿里巴巴集团在大模型领域的深度布局与全面实践。

以更开放和务实的方式
解决高质量训练数据供给

解决高质量训练数据供给问题，需采取务实、多元、开放策略，理解模型数据需求，协调政府与社会资源，构建共赢生态。制度设计应为技术进步留空间，优先考虑数据可及性，适度放松输入端管控并以事后监管应对风险，鼓励合理使用版权数据与合成数据。实践中，政府应推动公共数据开放，企业则积极探索数据构建方法，借助市场机制评判数据价值。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业