我要投稿

如何将公司内部数据制作成大模型训练用的数据集

发布日期：2025-09-04 05:53:20 浏览次数： 2300

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

毫不夸张地讲，你的大模型微调效果好不好关键在于数据集质量如何。而微调工具或者微调参数只是其次。那么如何将公司内部的私有数据制作成大模型微调用的数据集呢？我给大家总结了6大步。

第一阶段：规划与准备 (最重要的阶段)

在开始任何技术工作之前，必须明确目标和规则。

1）明确训练目标：

任务类型：你想训练模型完成什么任务？

知识问答：基于文档内容回答问题。
文本摘要：自动生成文档摘要。
内容分类：将文档归入特定类别。
对话系统：打造一个内部知识助手。
代码生成：如果是代码库，用于代码补全或解释。

目标决定了后续所有处理方式。例如，做摘要需要“文档-摘要”对，做问答需要“问题-答案”对。

2）确定数据范围与来源：

来源： confluence, Notion, SharePoint, Google Docs, 代码库 (Git), CRM,客服工单，内部Wiki，PDF报告等。

范围：不是所有文档都适合。确定哪些部门、哪个时间段、哪些类型的文档需要纳入。避免使用过时的、敏感的或低质量的文档。

3）处理安全和隐私问题：

合规审查：务必与法务、安全和合规部门合作。
数据脱敏：制定明确的脱敏规则，识别并去除或替换个人身份信息和其他敏感信息（如电话号码、邮箱、身份证号、银行卡号、客户名称、内部IP/域名等）。
权限控制：确保用于训练的数据不包含未经授权访问的内容。

第二阶段：数据收集与整理

1）批量导出数据：

使用各种工具提供的API（如Confluence API, Google Drive API）或以权限方式（如数据库导出、CSV）批量获取原始文档。

保存时最好保留元数据，如创建日期、作者、文档类型、URL等，这些信息后续可能用于筛选或增强数据。

2）统一格式：

将不同格式的文件（.docx, .pdf, .ppt, .html, .txt）转换为纯文本格式。

工具推荐：

PDF：使用 PyMuPDF , pdfplumber , 或商业工具Adobe Acrobat。
DOCX：使用 python-docx 库。
PPTX：使用 python-pptx 库（注意主要提取文本框内容）。
HTML：使用 BeautifulSoup 库去除标签。

转换后，文本中会包含大量无用元素（页眉、页脚、页码、代码块），这是正常的，下一步清洗会处理。

第三阶段：数据清洗与预处理

这是最耗时但至关重要的一步，直接决定数据集质量。

1）清理噪音：

删除无关文本：页眉页脚、页码、法律免责声明、重复内容。
清理多余的换行符、空格、乱码（ ， UTF-8 错误字符）。
处理表格和图像：表格可以提取为结构化文本（如Markdown表格）。图像中的文本需要使用OCR提取，但需评估其价值与成本。

2）分段：

大语言模型有上下文长度限制。不能将整本书直接扔给模型。
将长文本切分成语义连贯的短段落。
简单方法：按换行符、句号分段。但效果一般。
高级方法：使用文本分割器，如 recursive character text splitter ，尽可能在语义完整的边界（如段落结束、标题处）进行切割，并保留部分重叠以避免语义断裂。

3）脱敏：

使用正则表达式匹配模式（如邮箱、电话号码）。
使用预训练模型（如 spaCy 的 NER 模型）来识别实体（人名、地名、组织名）。
将识别出的敏感信息替换为无意义的占位符，如 [PHONE] , [NAME] , [EMAIL]。

4）去重：

删除完全相同的重复段落。
使用模糊去重（如SimHash）删除高度相似的段落，避免数据冗余。

第四阶段：数据格式化与标注

根据第一阶段的目标，将纯文本结构化为模型可训练的格式。

1）格式选择：

预训练：只需清洗后的纯文本，每段文本作为一个样本。格式简单：{"text": "..."}
指令微调：需要构造“指令-输入-输出”对。

问答对： {"instruction": "公司年假政策是怎样的？", "input": "", "output": "根据员工手册，全职员工每年享有15天年假..."}
摘要： {"instruction": "为以下文档写摘要", "input": "[长文档内容]", "output": "[摘要文本]"}

对话微调：需要多轮对话数据。

{"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}

2）数据构造方法：

人工撰写：质量最高，但成本高昂。适用于关键任务。
自动生成：

问答对：使用一个强大的LLM（如GPT-4）根据文档段落自动生成问题。

摘要：使用摘要模型为长文档生成摘要候选，再由人工审核修正。

利用现有资源：如果公司有客服日志，可以从中提取真实的“用户问题-客服回答”对。

第五阶段：质量保证与数据集构建

1）抽样与人工评估：

从处理后的数据中随机抽取一部分（例如1%）。
让领域专家评估质量：内容是否准确、格式是否正确、是否无敏感信息、标注是否合理。
根据反馈迭代优化前面的处理流程。

2）构建数据集文件：

将最终数据保存为标准的、通用的格式。
推荐格式： JSONL ，即每行一个JSON对象。这种格式易于读取、处理，且被绝大多数训练框架支持。
其他格式：CSV、Parquet。

3）划分数据集：

将数据随机打乱后，划分为：

训练集：用于模型训练的主要部分（~90%）。
验证集：训练过程中评估模型性能，调整超参数（~5%）。
测试集：最终评估模型的泛化能力，在整个训练过程中不应使用（~5%）。

第六阶段：安全、维护与迭代

1）安全存储：将最终数据集存储在安全的、有访问权限控制的位置。

2）版本控制：对数据集进行版本管理（如使用DVC或git-lfs），记录每次变化的说明。

3）持续迭代：随着公司内部文档的更新，定期重复此流程，扩增和更新数据集，以使模型保持最新。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-04

OpenAI公开新的模型训练方法：或许能解决模型撒谎问题，已在GPT-5 thiking验证

2025-11-23

微调Rerank模型完整指南

2025-11-22

大模型微调全流程实战指南：基于IPO框架的深度解析与优化

2025-11-21

AI基础 | Qwen3 0.6B 微调实现轻量级意图识别

2025-11-20

从零开始：手把手教你微调Embedding模型，让检索效果提升10倍！

2025-11-19

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

基于昇腾NPU的Qwen3量化因子代码生成微调实战

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-10-12

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-14

从零教你微调一个专属领域大模型，看完小白也能学会炼丹!（完整版）

2025-10-21

阿里云Qwen3系列模型部署微调评测

2025-09-07

微调Qwen2.5模型的完整指南

2025-09-09

一位淘宝工程同学的大模型LoRA微调尝试

2025-09-24

在Colab中微调Qwen3-4B模型实战指南

2025-09-20

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

基于昇腾NPU的Qwen3量化因子代码生成微调实战

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

大家都在问

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部