推荐语
快速构建大模型微调数据集的利器,让AI训练更高效。
核心内容:
1. 介绍Easy Dataset工具及其功能特点
2. 详细演示如何在Windows系统上使用Easy Dataset
3. 数据集导出与自定义的步骤和方法
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
上个月上线了【运维大模型课】,最近一直忙着整理讲义和录课,所以公众号文章发的都少了。
除了跟大家简单汇报下课程进度外,还想分享一个超赞的工具。我相信所有做大模型微调的朋友,一定会为如何制作数据集发愁,尤其是想把自己专属的文档(如word、txt等)转换成符合要求格式的数据集。今天的主角就是这个开源的大模型微调数据集创建工具:Easy Dataset(https://github.com/ConardLi/easy-dataset),目前github上已有6.4k Star,而且它的增长速度非常快。作者不仅提供了多系统平台客户端,非常Nice
而且还支持npm或者docker的形式部署在Linux服务器上。下面是我在windows系统上做了一个测试,效果还不错。点击上面那个setup.exe,然后跳转到下载页面这个不用多讲,大家都会,直接双击exe文件安装即可。模型这里可选的模型还是蛮多的,比如GPT-4o、DeepSeek、Grok等,也可以使用私有部署的大模型,我用的是DeepSeek(deepseek-chat),这里需要到deepseek官网申请一个apikey提示词配置比较关键,如果想生成比较符合你预期的数据集,就需要在提示词这里下点功夫了,我测试的时候直接留空了支持多个文件,由于大模型不能一下子处理太多文本,所以Easy Dataset会根据我们的设置来分割文件有了文本块之后,下面需要先生成一个一个的问题,基于问题再去生成对应的问答对儿。选中文本块之后,点击右侧的批量生成问题,即可自动生成问题。有了问题之后,就可以自动生成数据集了,点击上面的“问题管理”菜单选中你想要生成数据集的问题,然后再点击右上角的“批量构建数据集”即可自动生成数据集。可以点击每一条数据集右侧的小眼睛查看具体的数据集内容可以看到,它为我们生成的数据集内容,有问题,有回答,也有思维链内容,这个数据集用来训练DeepSeek或者Qwen大模型都是非常合适的。选中你想要的数据集,然后点击右上角的“导出数据集”可以选择JSON、JSONL或者CSV格式,数据集风格默认是Alpaca,也可以自定义,这个主要取决你微调时用什么样的数据集。包括系统提示词也可以自定义。总之,这个Easy Dataset体验还是非常不错的。·············· END ··············