支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


教你如何10分钟内批量制作上万条大模型微调数据集

发布日期:2025-05-13 02:41:34 浏览次数: 1512 作者:阿铭linux
推荐语

快速构建大模型微调数据集的利器,让AI训练更高效。

核心内容:
1. 介绍Easy Dataset工具及其功能特点
2. 详细演示如何在Windows系统上使用Easy Dataset
3. 数据集导出与自定义的步骤和方法

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
↑ 点击关注,分享IT技术|职场晋升技巧|AI工具

上个月上线了【运维大模型课】,最近一直忙着整理讲义和录课,所以公众号文章发的都少了。

课程目前已更新21小节,目前保持周更的频率。
除了跟大家简单汇报下课程进度外,还想分享一个超赞的工具。我相信所有做大模型微调的朋友,一定会为如何制作数据集发愁,尤其是想把自己专属的文档(如word、txt等)转换成符合要求格式的数据集。
今天的主角就是这个开源的大模型微调数据集创建工具:Easy Dataset(https://github.com/ConardLi/easy-dataset),目前github上已有6.4k Star,而且它的增长速度非常快。

作者不仅提供了多系统平台客户端,非常Nice

而且还支持npm或者docker的形式部署在Linux服务器上。下面是我在windows系统上做了一个测试,效果还不错。
1)下载windows客户端
点击上面那个setup.exe,然后跳转到下载页面
再点这个exe文件下载
2)安装客户端
这个不用多讲,大家都会,直接双击exe文件安装即可。
3)安装完,需要做一个简单的配置
先创建项目
然后定义项目名字和描述
模型这里可选的模型还是蛮多的,比如GPT-4o、DeepSeek、Grok等,也可以使用私有部署的大模型,我用的是DeepSeek(deepseek-chat),这里需要到deepseek官网申请一个apikey
提示词配置比较关键,如果想生成比较符合你预期的数据集,就需要在提示词这里下点功夫了,我测试的时候直接留空了
4)上传文献
支持多个文件,由于大模型不能一下子处理太多文本,所以Easy Dataset会根据我们的设置来分割文件
5)生成问题
有了文本块之后,下面需要先生成一个一个的问题,基于问题再去生成对应的问答对儿。选中文本块之后,点击右侧的批量生成问题,即可自动生成问题。
6)生成数据集
有了问题之后,就可以自动生成数据集了,点击上面的“问题管理”菜单
选中你想要生成数据集的问题,然后再点击右上角的“批量构建数据集”即可自动生成数据集。
7)导出数据集
等数据集生成完毕之后,点击“数据集管理”菜单
可以点击每一条数据集右侧的小眼睛查看具体的数据集内容
可以看到,它为我们生成的数据集内容,有问题,有回答,也有思维链内容,这个数据集用来训练DeepSeek或者Qwen大模型都是非常合适的。
选中你想要的数据集,然后点击右上角的“导出数据集”
可以选择JSON、JSONL或者CSV格式,数据集风格默认是Alpaca,也可以自定义,这个主要取决你微调时用什么样的数据集。包括系统提示词也可以自定义。
总之,这个Easy Dataset体验还是非常不错的。
··············  END  ··············
哈喽,我是阿铭,《跟阿铭学Linux》作者,曾就职于腾讯,有着18年的IT从业经验,现全职做IT类职业培训:运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关,欢迎围观。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询