微信扫码
添加专属顾问
我要投稿
小模型大智慧!仅15亿参数的VibeThinker以7800美元低成本击败6710亿参数巨头,重新定义AI效率革命。核心内容: 1. VibeThinker-1.5B在数学竞赛基准测试中超越超大规模模型 2. 创新的"频谱到信号原理"训练方法突破小模型能力极限 3. 低成本高效率的技术路径或将改变AI行业参数竞赛现状
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!
在AI发展史上,参数量曾被视为衡量模型能力的核心指标。
行业普遍认为,复杂推理能力需要1000亿以上参数才能涌现,而小模型则因无法处理高难度问题被视为“天生不足”。
但如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理能力?
微博自研开源大模型VibeThinker,给出了行业一个肯定的答案。
当大多数AI厂商仍遵循着“规模扩大即智能提升”的Scaling Law法则时,微博AI研发人员转而优化模型结构和训练范式,并创新提出了“频谱到信号原理”(SSP)方法训练,创造出了一个仅拥有15亿参数的“轻量级选手”,但在AI竞技场上战胜了超越其数百倍体量的“巨人”。
VibeThinker一经发布,立即引起了全球AI研究界的广泛关注,因其在一系列涵盖数学、编码的权威基准测试中,交出了一份出乎意料的答卷:
在AIME24、AIME25以及HMMT25三个高难度数学测试集上的表现,VibeThinker超越了参数量超其400倍的模型DeepSeek-R1-0120版本(模型大小671B),与规模为456B的MiniMax-M1效果接近或相当,甚至媲美Gemini 2.5 flash和Claude Opus 4。
此外,在LiveCodeBench v6(编程算法题测试集)中的成绩,VibeThinker成功追平参数量数超其数十倍的模型,比如欧洲领先AI企业Minstral.AI的深度思考模型Magistral-Medium-2506版本。
VibeThinker雄辩地证明,通过精巧的算法设计和训练策略,一个小规模模型完全有潜力在复杂的逻辑推理任务上,达到甚至超越那些体量庞大数百倍的巨型模型,更为AI产业的成本结构、技术路线和资本布局带来了全新的思考路径。
需要说明的是,VibeThinker目前发布的版本尚处于实验性版本,其研发重点主要集中于极大强化小模型复杂数学与竞赛编程等方面的能力,其在日常聊天等能力还没有做过针对性训练优化,所以暂不适合作为日常聊天工具进行互动,更适用于数学和代码等高智能应用场景。
训练成本一直是制约AI技术普及的关键瓶颈,VibeThinker的成就不仅在于惊艳的性能,更在于其极致的成本效益。
根据公开数据,2025年主流大模型单次后训练(Post-Training)成本普遍在数十万美元级别。
上海AI企业MiniMax于今年6月发布的M1模型,使用512块H800 GPU训练三周,租赁成本约53.5万美元,创始人发文表示:“第一次感觉到大山不是不能翻越。”
今年9月,AI初创公司DeepSeek(深度求索)的论文登上《自然》杂志。论文首次揭示了训练R1的成本:仅为29.4万美元。这不包括DeepSeek公司在开发R1所基于的基础LLM(即DeepSeek-V3)上花费的约600万美元,但总成本仍然远低于竞争对手模型被认为花费的数千万美元。
在这样的行业背景下,VibeThinker整个后训练过程(包括SFT和RL阶段)总共只花费了约3900个GPU小时。按照当时的市场租赁价格,总计算成本仅7800美元。
这也意味着,其用不到8000美元的成本,达到了需要花费30万、甚至50万美元才能企及的性能水平,成本效益比达到了惊人的30到60倍。
这种成本上的显著优势,也意味着强大的AI推理能力不再是少数科技巨头的专利,原本被巨头垄断的技术资源得以普惠,更多中小型公司、研究机构和大学,都有机会参与到前沿AI创新开发中来,极大地促进了AI研究的普惠化,推动整个行业朝着更开放、更多元、更具活力的方向发展。
技术突破的最终价值在于应用落地。
微博积极拥抱人工智能发展趋势,全面促进AI技术在多项业务场景的落地。
2024年,微博自主研发“知微”大语言模型,并成功通过备案,更陆续推出微博智搜、内容总结、AI互动号等前沿功能,优化用户体验,提升内容生产和互动效率。
基于自研的“知微”大模型,微博构建了适配微博场景的AI应用生态,并创造了两大顶流AI产品:
一是微博智搜,它通过深度分析平台内海量优质内容,构建可信知识图谱,实现“精准捕捉用户需求、理解情感与场景”的突破性体验,6月智搜月活跃用户突破5000万;
二是评论罗伯特,作为AI互动账号,它从毒舌风格起步,逐渐进化出温情与聪明版本,成为广大用户“又爱又恨”的交流对象,全网粉丝近200万,展现了AI评论助手的另一种可能性。
随着自研大模型VibeThinker取得突破,更标志着微博AI战略迈入新阶段。
立足于自研大模型VibeThinker,微博的未来规划凸显了鲜明的“数据赋能”路径。公司计划深度融合其在心理等垂直领域积累的独特数据资产,目标是打造一个更洞悉公众情绪、更能服务社会化需求的专属模型。
微博不仅是在优化一个大模型,更是在解锁其数据生态的深层价值,以提供更精准、更懂用户心理状态的下一代社交服务。
VibeThinker的强大技术能力,或将成为驱动微博AI应用“多点开花”的核心引擎,深度融入平台全业务生态。
未来,VibeThinker有望在微博智搜等核心AI产品中落地,不仅能持续提升用户使用体验,更有望打破场景边界,裂变出兼具社交属性与智能服务的下一个“社交超级生态”。
此外,VibeThinker的技术突破有望大幅降低微博AI应用成本。
无论是智能搜索的算力损耗,还是实时互动场景的AI响应成本,都将得到高效优化,让平台在规模化投入AI能力时无需承担过高的资源压力,进一步释放微博的生态创新能力,为用户带来更丰富、更便捷的智能体验。
wisemodel社区-镜像上线了“微博AI/VibeThinker-1.5B”的镜像,支持一键创建在线体验或者API服务,选中该镜像,点击部署在线体验或者部署API服务。
进入后,根据需要填写相应的信息,点击“提交订单”按钮,体验进入后台的启动阶段。大概等待1分钟左右,体验进入运行中的状态。
公开状态的在线体验可以在wisemodel社区-体验与API”的页面上点击相应的体验,进入体验的页面;私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。
往期推荐
wisemodel相关:
1、始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”
系列模型:
Agent让小白也能上手" data-itemshowtype="0" linktype="text" data-linktype="2">5、用AI进行GPU编程,GEAK-Agent让小白也能上手
7、VisionThink提出视觉令牌压缩新范式,驱动VLM效率革命
8、代码国内最强,GLM-4.6获LMArena代码榜全球并列第一
关于wisemodel更多
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-25
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
2025-11-25
5分钟部署AstrBot+NapCat:用Docker把 DeepSeekAI接入你的QQ
2025-11-25
OpenAI 推出 Shopping Research:AI 正在重塑电商价值链
2025-11-25
Gemini Prompt:直接开源!我把「顶尖商业咨询」写进了一套 AI 指令里
2025-11-24
字节跳动开源RL框架verl:让大模型强化学习效率提升20倍,已支持671B参数模型训练
2025-11-24
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场
2025-11-23
一行代码,让你的 AI 拥有永久记忆!告别昂贵的向量数据库
2025-11-23
Andrej Karpathy 推出 LLM Council:让多个大模型"开会"讨论你的问题
2025-09-07
2025-09-06
2025-10-20
2025-09-08
2025-10-27
2025-10-27
2025-11-19
2025-10-03
2025-09-17
2025-09-29
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17