微信扫码
添加专属顾问
我要投稿
“ 大模型的本质,是一种能够处理特定类型任务的数学模型”
现在大模型可以说是人工智能的代表,但目前的大模型还只是一种基于数学逼近算法的概率统计模型。
因此,其需要大量的训练数据来让模型学习,找到其中的规律,然后就有了大模型。因此,也间接说明了训练数据的重要性。
那么应该怎么收集训练数据呢?
01
—
收集训练数据的渠道
马云说:“二十一世纪是大数据时代,数据是一家企业最重要的生产资料”。
而在人工智能时代来临的时候,数据果然成了重要的生成资料。大模型的训练成了实现人工智能的主要途径,而数据的收集也成了重中之重。
其实,说到底数据的来源无非有两种,第一种是自己的数据,第二种是别人的数据。
但对很多企业来说,自身的数据还不足以维持大模型的训练;因此数据的收集主要集中在别人的数据上。
而别人的数据又分为几种情况,第一种是人家的企业内部数据;第二种是网络上公开的数据。
人工智能聊天小程序,感兴趣的可以点击查看:
因此根据以上情况,收集数据的渠道无非以下几种:
第一种在自己企业内部收集数据,比如多年来的企业经营的数据等。
第二种是收集网络上公开的数据,但网络上公开的数据有的可以收集有的还是需要别人的同意才行。
比如,弱智吧的数据,抖音,公众号,小红书等的内容数据;这些数据虽然网上都可以看得到,但你不能直接使用。
第三种是收集人家企业内部的数据,比如某某公司的运营数据等。
02
—
数据的收集方式
在前面说了数据的重要性,以及数据的收集渠道,这里讲一下收集数据的方式。
为什么要讲这个?
是因为不同的数据有不同的收集方式,如果使用错误的方法很可能造成违规操作,给企业带来损失,严重的甚至会去吃皇粮。
第一种数据收集渠道,最简单,成本最低,风险也最低。
因为所有的东西都是自己的,然后自己想怎么用就怎么用,只要别做违法的事情,那么就可以合理的利用。
第二种收集别人的数据,就需要注意了。一些公网上的公开数据,企业可以通过爬虫去获取,这个合理合法。
但如果你用爬虫爬取其它企业的内部数据,或者导致人家的系统瘫痪,那么就是爬虫写的好,皇粮少不了。
还有一种就是购买别人的数据,但购买别人的数据也不是可以随便买。比如,企业的一些经营数据可以买,但如果涉及到用户信息和隐私,那么不论是买数据的还是卖数据的,都会去喝茶。
最后人工智能时代,机器学习的技术很重要,但数据处理的技术也同样重要。没有数据,再强大的机器学习模型也没有用武之地。
因此,人工智能时代,参与的不一定是懂得机器学习的,也需要懂得大数据处理技术,和前后端开发技术。因此,技术的根本价值在于使用,技术很重要,但技术的应用更重要。
这就类似于,美国的人工智能技术强,中国的人工智能应用强。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-15
别再误会MCP了!一篇写给AI工程师的硬核“辟谣”指南
2025-09-14
为什么说阿里巴巴正转身“AI科技公司”
2025-09-14
阿里云赢 AI 云的真相:不是模型比人强,是把 “用 AI 的门槛” 拆成了 “可复制的效率”
2025-09-14
一万两千字,解读智能应用开发最佳实践
2025-09-14
AI 新玩法:GraphRAG × Ollama 打造更聪明的智能体
2025-09-14
阿里云视觉多模态理解大模型开发训练部署
2025-09-14
2025.9 回顾过去1年的LLM圈进展 与 展望
2025-09-14
抢先实测美团首个AI Agent,让我体验一把「懒人点餐」的快乐
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-14
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08