微信扫码
添加专属顾问
我要投稿
我们都知道,大模型的训练需要大量的训练数据。而合成数据 - synthetic data作为真实数据的补充,已经成为训练数据中的重要组成部分(甚至未来合成数据的占比可能会达到~99%)。
今天看到腾讯AI实验室的一篇paper,为创造合成数据提供了新的思路:
Scaling Synthetic Data Creation with 1,000,000,000 Personas
下载地址https://arxiv.org/pdf/2401.02524
顾名思义,作者通过十亿个Persona人物角色(约占世界人口13%)来为合成数据scale up:we introduce Persona Hub – a collection of 1 billion diverse personas automatically curated from web data。
通过这个Persona Hub,组建了一个由形形色色的不同角色组成的世界,这些人物角色作为世界知识的载体,可以大规模地生成各种场景下的合成数据。
合成数据的背景
合成数据对于训练和优化 LLMs 至关重要,现在人们会通过prompt来让LLM产出合成数据。但现有方法在批量生成多样化、高质量的数据方面存在局限。
为此,文章作者提出了基于人物角色Persona的方法,构建了10亿个Persona,创建了Persona Hub,即角色仓库,里面包含“搬家公司司机”、“科学研究员”、“音乐家”等多样化角色。这样一来,不同Persona利用LLM中的多种视角来创建丰富的合成数据。
Persona Hub 的创新与构建
Persona Hub 是一个包含十亿个虚拟人物角色的集合,这些人物角色拥有不同的性格、背景和经历。构建 Persona Hub 的两种主要方法为:
Persona Hub 创建合成数据
Persona Hub构建完毕,作者将Persona融入到不同的数据合成的prompt的适当位置,就可以批量生成多样化的合成数据。
作者展示了其在多个场景下创造合成数据的能力:
一个生成数学题目的Demo
作者展示了如何使用一个Persona来引导LLM创建与该Persona相关的数学问题。例如,当给定一个对计算语言学感兴趣的语言学家人物角色时,LLM会创建一个与计算语言学相关的数学问题。此外,演示还强调了即使在提示中添加了Persona,仍然可以轻松指定所需数学问题的重点(例如,几何问题)或难度(例如,奥林匹克级别的问题)。
Persona Hub 的潜在影响与未来展望
Persona Hub 的出现预示着合成数据领域的一次范式转变。它不仅能提升 LLMs 的训练效果,还能在聊天机器人、虚拟助手、模拟现实世界个体等多个领域发挥作用。此外,Persona Hub 还可为 LLMs 提供全面的记忆访问,使对话更加连贯和合理。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-30
WAIC-Day3: 谈谈Agent场景及Agent OS基础设施
2025-07-30
微软进军 AI 浏览器,维持巨头的平庸
2025-07-30
Higress ,助力企业构建私有 AI 网关和 MCP 市场
2025-07-30
刚刚,OpenAI给大学生做了个新外挂!ChatGPT一键变老师,免费可用
2025-07-30
突发!字节跳动发布同声传译大模型Seed LiveInterpret2.0,是首个延迟与准确率接近人类水平的中英语音同传系统!
2025-07-30
OpenAI深夜发布ChatGPT Study:免费AI家教,彻底颠覆传统教育
2025-07-29
AI+合同审查落地分享(下-1- 合同智能审查)
2025-07-29
AI 应用开发,还需要意图识别吗?
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-07-29
2025-07-29
2025-07-28
2025-07-27
2025-07-27
2025-07-25
2025-07-24
2025-07-24