微信扫码
添加专属顾问
我要投稿
我们都知道,大模型的训练需要大量的训练数据。而合成数据 - synthetic data作为真实数据的补充,已经成为训练数据中的重要组成部分(甚至未来合成数据的占比可能会达到~99%)。
今天看到腾讯AI实验室的一篇paper,为创造合成数据提供了新的思路:
Scaling Synthetic Data Creation with 1,000,000,000 Personas
下载地址https://arxiv.org/pdf/2401.02524
顾名思义,作者通过十亿个Persona人物角色(约占世界人口13%)来为合成数据scale up:we introduce Persona Hub – a collection of 1 billion diverse personas automatically curated from web data。
通过这个Persona Hub,组建了一个由形形色色的不同角色组成的世界,这些人物角色作为世界知识的载体,可以大规模地生成各种场景下的合成数据。
合成数据的背景
合成数据对于训练和优化 LLMs 至关重要,现在人们会通过prompt来让LLM产出合成数据。但现有方法在批量生成多样化、高质量的数据方面存在局限。
为此,文章作者提出了基于人物角色Persona的方法,构建了10亿个Persona,创建了Persona Hub,即角色仓库,里面包含“搬家公司司机”、“科学研究员”、“音乐家”等多样化角色。这样一来,不同Persona利用LLM中的多种视角来创建丰富的合成数据。
Persona Hub 的创新与构建
Persona Hub 是一个包含十亿个虚拟人物角色的集合,这些人物角色拥有不同的性格、背景和经历。构建 Persona Hub 的两种主要方法为:
Persona Hub 创建合成数据
Persona Hub构建完毕,作者将Persona融入到不同的数据合成的prompt的适当位置,就可以批量生成多样化的合成数据。
作者展示了其在多个场景下创造合成数据的能力:
一个生成数学题目的Demo
作者展示了如何使用一个Persona来引导LLM创建与该Persona相关的数学问题。例如,当给定一个对计算语言学感兴趣的语言学家人物角色时,LLM会创建一个与计算语言学相关的数学问题。此外,演示还强调了即使在提示中添加了Persona,仍然可以轻松指定所需数学问题的重点(例如,几何问题)或难度(例如,奥林匹克级别的问题)。
Persona Hub 的潜在影响与未来展望
Persona Hub 的出现预示着合成数据领域的一次范式转变。它不仅能提升 LLMs 的训练效果,还能在聊天机器人、虚拟助手、模拟现实世界个体等多个领域发挥作用。此外,Persona Hub 还可为 LLMs 提供全面的记忆访问,使对话更加连贯和合理。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-09
谁来给企业端即将大规模入职的Agent盖办公室?
2026-05-09
鹅厂员工觉得好的code模型应该具备什么能力?
2026-05-09
Markdown要被抛弃了?Claude Code工程师自曝:我已彻底放弃使用Markdown!团队倾向使用HTML!网友:其他编辑工具会被淘汰吗?
2026-05-09
“Claude Code 你就作吧,我换 Codex 了”
2026-05-09
LLM 输出到这步才算可靠:生产级输出验证与质量工程实战
2026-05-09
OpenAI发布Codex for Chrome,能自动操控浏览器干活了!
2026-05-08
Codex Chrome 插件实测:多标签并行后,AI 浏览器代理终于顺手了
2026-05-08
AI吞噬软件的叙事要分化了?
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-04-07
2026-03-17
2026-02-09
2026-03-17
2026-03-21
2026-04-07
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18