免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


如何将公司内部数据制作成大模型训练用的数据集

发布日期:2025-09-04 05:53:20 浏览次数: 1570
作者:阿铭linux

微信搜一搜,关注“阿铭linux”

推荐语

企业数据如何转化为高质量AI训练集?6步打造专属大模型微调数据集。

核心内容:
1. 规划阶段:明确训练目标、数据范围与安全合规要求
2. 数据处理:批量导出、统一格式转换与深度清洗技巧
3. 质量把控:数据标注策略与持续优化的关键要点

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

毫不夸张地讲,你的大模型微调效果好不好关键在于数据集质量如何。而微调工具或者微调参数只是其次。那么如何将公司内部的私有数据制作成大模型微调用的数据集呢?我给大家总结了6大步。

第一阶段:规划与准备 (最重要的阶段)

在开始任何技术工作之前,必须明确目标和规则。

1)明确训练目标:

任务类型:你想训练模型完成什么任务?

  • 知识问答:基于文档内容回答问题。

  • 文本摘要:自动生成文档摘要。

  • 内容分类:将文档归入特定类别。

  • 对话系统:打造一个内部知识助手。

  • 代码生成:如果是代码库,用于代码补全或解释。

目标决定了后续所有处理方式。例如,做摘要需要“文档-摘要”对,做问答需要“问题-答案”对。

2)确定数据范围与来源:

来源: confluence, Notion, SharePoint, Google Docs, 代码库 (Git), CRM,客服工单,内部Wiki,PDF报告等。

范围:不是所有文档都适合。确定哪些部门、哪个时间段、哪些类型的文档需要纳入。避免使用过时的、敏感的或低质量的文档。

3)处理安全和隐私问题:

  • 合规审查:务必与法务、安全和合规部门合作。

  • 数据脱敏:制定明确的脱敏规则,识别并去除或替换个人身份信息 和其他敏感信息(如电话号码、邮箱、身份证号、银行卡号、客户名称、内部IP/域名等)。

  • 权限控制:确保用于训练的数据不包含未经授权访问的内容。

第二阶段:数据收集与整理

1)批量导出数据:

使用各种工具提供的API(如Confluence API, Google Drive API)或以权限方式(如数据库导出、CSV)批量获取原始文档。

保存时最好保留元数据,如创建日期、作者、文档类型、URL等,这些信息后续可能用于筛选或增强数据。

2)统一格式:

将不同格式的文件(.docx.pdf.ppt.html.txt)转换为纯文本格式。

工具推荐:

  • PDF:使用 PyMuPDF , pdfplumber , 或商业工具Adobe Acrobat。

  • DOCX:使用 python-docx 库。

  • PPTX:使用 python-pptx 库(注意主要提取文本框内容)。

  • HTML:使用 BeautifulSoup 库去除标签。

转换后,文本中会包含大量无用元素(页眉、页脚、页码、代码块),这是正常的,下一步清洗会处理。

第三阶段:数据清洗与预处理

这是最耗时但至关重要的一步,直接决定数据集质量。

1)清理噪音:

  • 删除无关文本:页眉页脚、页码、法律免责声明、重复内容。

  • 清理多余的换行符、空格、乱码( , UTF-8 错误字符)。

  • 处理表格和图像:表格可以提取为结构化文本(如Markdown表格)。图像中的文本需要使用OCR提取,但需评估其价值与成本。

2)分段:

  • 大语言模型有上下文长度限制。不能将整本书直接扔给模型。

  • 将长文本切分成语义连贯的短段落。

  • 简单方法:按换行符、句号分段。但效果一般。

  • 高级方法:使用文本分割器,如 recursive character text splitter ,尽可能在语义完整的边界(如段落结束、标题处)进行切割,并保留部分重叠以避免语义断裂。

3)脱敏:

  • 使用正则表达式匹配模式(如邮箱、电话号码)。

  • 使用预训练模型(如 spaCy 的 NER 模型)来识别实体(人名、地名、组织名)。

  • 将识别出的敏感信息替换为无意义的占位符,如 [PHONE] , [NAME] , [EMAIL]

4)去重:

  • 删除完全相同的重复段落。

  • 使用模糊去重(如SimHash)删除高度相似的段落,避免数据冗余。

第四阶段:数据格式化与标注

根据第一阶段的目标,将纯文本结构化为模型可训练的格式。

1)格式选择:

  • 预训练:只需清洗后的纯文本,每段文本作为一个样本。格式简单:{"text": "..."}

  • 指令微调:需要构造“指令-输入-输出”对。

    • 问答对: {"instruction": "公司年假政策是怎样的?", "input": "", "output": "根据员工手册,全职员工每年享有15天年假..."}

    • 摘要: {"instruction": "为以下文档写摘要", "input": "[长文档内容]", "output": "[摘要文本]"}

  • 对话微调:需要多轮对话数据。

    • {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}

2)数据构造方法:

  • 人工撰写:质量最高,但成本高昂。适用于关键任务。

  • 自动生成:

    • 问答对:使用一个强大的LLM(如GPT-4)根据文档段落自动生成问题。

    • 摘要:使用摘要模型为长文档生成摘要候选,再由人工审核修正。

  • 利用现有资源:如果公司有客服日志,可以从中提取真实的“用户问题-客服回答”对。

第五阶段:质量保证与数据集构建

1)抽样与人工评估:

  • 从处理后的数据中随机抽取一部分(例如1%)。

  • 让领域专家评估质量:内容是否准确、格式是否正确、是否无敏感信息、标注是否合理。

  • 根据反馈迭代优化前面的处理流程。

2)构建数据集文件:

  • 将最终数据保存为标准的、通用的格式。

  • 推荐格式: JSONL ,即每行一个JSON对象。这种格式易于读取、处理,且被绝大多数训练框架支持。

  • 其他格式:CSV、Parquet。

3)划分数据集:

将数据随机打乱后,划分为:

  • 训练集:用于模型训练的主要部分(~90%)。

  • 验证集:训练过程中评估模型性能,调整超参数(~5%)。

  • 测试集:最终评估模型的泛化能力,在整个训练过程中不应使用(~5%)。

第六阶段:安全、维护与迭代

1)安全存储:将最终数据集存储在安全的、有访问权限控制的位置。

2)版本控制:对数据集进行版本管理(如使用DVC或git-lfs),记录每次变化的说明。

3)持续迭代:随着公司内部文档的更新,定期重复此流程,扩增和更新数据集,以使模型保持最新。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询