微信扫码
添加专属顾问
我要投稿
企业数据如何转化为高质量AI训练集?6步打造专属大模型微调数据集。 核心内容: 1. 规划阶段:明确训练目标、数据范围与安全合规要求 2. 数据处理:批量导出、统一格式转换与深度清洗技巧 3. 质量把控:数据标注策略与持续优化的关键要点
毫不夸张地讲,你的大模型微调效果好不好关键在于数据集质量如何。而微调工具或者微调参数只是其次。那么如何将公司内部的私有数据制作成大模型微调用的数据集呢?我给大家总结了6大步。
在开始任何技术工作之前,必须明确目标和规则。
1)明确训练目标:
任务类型:你想训练模型完成什么任务?
知识问答:基于文档内容回答问题。
文本摘要:自动生成文档摘要。
内容分类:将文档归入特定类别。
对话系统:打造一个内部知识助手。
代码生成:如果是代码库,用于代码补全或解释。
目标决定了后续所有处理方式。例如,做摘要需要“文档-摘要”对,做问答需要“问题-答案”对。
2)确定数据范围与来源:
来源: confluence, Notion, SharePoint, Google Docs, 代码库 (Git), CRM,客服工单,内部Wiki,PDF报告等。
范围:不是所有文档都适合。确定哪些部门、哪个时间段、哪些类型的文档需要纳入。避免使用过时的、敏感的或低质量的文档。
3)处理安全和隐私问题:
合规审查:务必与法务、安全和合规部门合作。
数据脱敏:制定明确的脱敏规则,识别并去除或替换个人身份信息 和其他敏感信息(如电话号码、邮箱、身份证号、银行卡号、客户名称、内部IP/域名等)。
权限控制:确保用于训练的数据不包含未经授权访问的内容。
1)批量导出数据:
使用各种工具提供的API(如Confluence API, Google Drive API)或以权限方式(如数据库导出、CSV)批量获取原始文档。
保存时最好保留元数据,如创建日期、作者、文档类型、URL等,这些信息后续可能用于筛选或增强数据。
2)统一格式:
将不同格式的文件(.docx
, .pdf
, .ppt
, .html
, .txt
)转换为纯文本格式。
工具推荐:
PDF:使用 PyMuPDF
, pdfplumber
, 或商业工具Adobe Acrobat。
DOCX:使用 python-docx
库。
PPTX:使用 python-pptx
库(注意主要提取文本框内容)。
HTML:使用 BeautifulSoup
库去除标签。
转换后,文本中会包含大量无用元素(页眉、页脚、页码、代码块),这是正常的,下一步清洗会处理。
这是最耗时但至关重要的一步,直接决定数据集质量。
1)清理噪音:
删除无关文本:页眉页脚、页码、法律免责声明、重复内容。
清理多余的换行符、空格、乱码(
, UTF-8
错误字符)。
处理表格和图像:表格可以提取为结构化文本(如Markdown表格)。图像中的文本需要使用OCR提取,但需评估其价值与成本。
2)分段:
大语言模型有上下文长度限制。不能将整本书直接扔给模型。
将长文本切分成语义连贯的短段落。
简单方法:按换行符、句号分段。但效果一般。
高级方法:使用文本分割器,如 recursive character text splitter
,尽可能在语义完整的边界(如段落结束、标题处)进行切割,并保留部分重叠以避免语义断裂。
3)脱敏:
使用正则表达式匹配模式(如邮箱、电话号码)。
使用预训练模型(如 spaCy
的 NER 模型)来识别实体(人名、地名、组织名)。
将识别出的敏感信息替换为无意义的占位符,如 [PHONE]
, [NAME]
, [EMAIL]
。
4)去重:
删除完全相同的重复段落。
使用模糊去重(如SimHash)删除高度相似的段落,避免数据冗余。
根据第一阶段的目标,将纯文本结构化为模型可训练的格式。
1)格式选择:
预训练:只需清洗后的纯文本,每段文本作为一个样本。格式简单:{"text": "..."}
指令微调:需要构造“指令-输入-输出”对。
问答对: {"instruction": "公司年假政策是怎样的?", "input": "", "output": "根据员工手册,全职员工每年享有15天年假..."}
摘要: {"instruction": "为以下文档写摘要", "input": "[长文档内容]", "output": "[摘要文本]"}
对话微调:需要多轮对话数据。
{"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}
2)数据构造方法:
人工撰写:质量最高,但成本高昂。适用于关键任务。
自动生成:
问答对:使用一个强大的LLM(如GPT-4)根据文档段落自动生成问题。
摘要:使用摘要模型为长文档生成摘要候选,再由人工审核修正。
利用现有资源:如果公司有客服日志,可以从中提取真实的“用户问题-客服回答”对。
1)抽样与人工评估:
从处理后的数据中随机抽取一部分(例如1%)。
让领域专家评估质量:内容是否准确、格式是否正确、是否无敏感信息、标注是否合理。
根据反馈迭代优化前面的处理流程。
2)构建数据集文件:
将最终数据保存为标准的、通用的格式。
推荐格式: JSONL
,即每行一个JSON对象。这种格式易于读取、处理,且被绝大多数训练框架支持。
其他格式:CSV、Parquet。
3)划分数据集:
将数据随机打乱后,划分为:
训练集:用于模型训练的主要部分(~90%)。
验证集:训练过程中评估模型性能,调整超参数(~5%)。
测试集:最终评估模型的泛化能力,在整个训练过程中不应使用(~5%)。
1)安全存储:将最终数据集存储在安全的、有访问权限控制的位置。
2)版本控制:对数据集进行版本管理(如使用DVC或git-lfs),记录每次变化的说明。
3)持续迭代:随着公司内部文档的更新,定期重复此流程,扩增和更新数据集,以使模型保持最新。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-06-17
2025-06-21
2025-07-03
2025-06-20
2025-06-26
2025-07-28
2025-07-22
2025-06-17
2025-07-09
2025-07-09