微信扫码
添加专属顾问
我要投稿
这是关于 AI 领域 RL 发展的精彩分析,不容错过! 核心内容: 1. Kimi 创新的 RL 框架及成果 2. DeepSeek 的 RL 方式及成绩 3. 从业者复现 o1 面临的困难
“呵呵,那个 AI 和猴子一样聪明呢,真逗”。
“我擦,发生了什么?”
我们要越来越习惯在可以用 RL 的地方很快迎来 AI 超越人类的“李世石时刻”。
看到 Kimi k1.5 这一组数据的时候,我的第一反应是:we are running out of benchmarks。在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平。这在一年前绝对是难以想象的。同时 k1.5 在Long-CoT 下的表现,更加让我们看到 There is no wall,RL 还可以走很远。
是更多 DAU 和时长,还是更多智能?新时代需要新的范式,我们始终相信一小群对技术充满热情的年轻人可能改变世界。我们也始终相信 AI 对人类的意义不止于打电话和虚拟贴贴,把能量更高效变成生产力普惠人类,应该才是这个游戏的通关答案。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-16
新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了
2025-09-16
Subagents:构建高可靠 AI Coding 专家顾问团
2025-09-16
刚刚!阿里发新模型,幻觉率爆降70%
2025-09-16
Agent三大痛点:知识库+工作流+Prompt工程
2025-09-16
Anthropic发布首个AI经济指数报告:越富越用AI,企业比个人更信任AI
2025-09-16
Claude Code与GitHub结合使用的实践指南
2025-09-16
企业复杂Agent落地的12个工程化原则 | 原则二:构建Prompt工程可扩展、可维护、可调试、可回滚 | 提示词A/B实验
2025-09-16
OpenAI深夜放出「编程核弹」:GPT-5-Codex 正式发布,能独立爆肝7 小时
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-14
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08