免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


看完杨植麟访谈,才意识到 Benchmark 是当前最关键的卡点

发布日期:2025-09-01 21:59:49 浏览次数: 1570
作者:地球美好不

微信搜一搜,关注“地球美好不”

推荐语

杨植麟深度解析AI技术演进:从监督微调到强化学习的范式转变,Agent系统将重塑未来工作方式。

核心内容:
1. 大模型技术从监督微调转向强化学习的趋势分析
2. Agent系统的核心价值与未来发展方向
3. 当前AI发展面临的最大瓶颈:Benchmark不足问题

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

听了张小珺对杨植麟的访谈播客,我最大的感受是,杨植麟已经清晰地将自己定位成一位“攀登者”。他花很少篇幅谈论商业化,却深入分享了很多AI算法和趋势的看法,其中“强化学习”和“Agent”是出现频率最高的词。对比他以前的访谈,除了对Scaling Law的坚持没变,其它观点几乎都有刷新。

这种转变,很大程度上是由于行业标杆的推动——去年9月OpenAI发布o1,以及今年初DeepSeek的进展,让整个行业更加坚定地走向了强化学习之路。

他提到一本对他影响很大的书《The Beginning of Infinity》,书中有两句话:“问题是不可避免的”“问题是可以解决的”。能感受到,他在研发过程中遇到了数不清的难题,而这两句话,某种程度上成了他坚持的信念。

他谈论的以下几个方面是我比较关注的:

过去一年大模型的技术演进

最明显的是,整个技术范式正从“监督微调”转向“强化学习”。具体呈现为两种方式:

  1. 1. “强思考”推理模型:让模型学会反思——先提出猜想,再验证对错。这种方式大幅提高了模型的推理能力,从原来多次生成才可能答对(Pass@k),进化到经常一次就命中正确答案(Pass@1)。
  2. 2. 多轮Agent范式:模型不再是“一问一答”,而是可以边思考、边操作,通过多轮交互完成任务。不管是通过更多轮次交互,还是更深入的思考,本质上都是同一种思路——在推理阶段投入更多计算,也就是“Test Time Scaling”。

Agentic LLM(这是我认为最有价值的一段)

Agent的目的

Agent的核心在于与外界交互,体现为多轮对话使用工具。工具目前有联网和代码等第。以后会有个性化的工具,例如定制的文档接口,定制的公司的数据库,定制的api等等。如果Agentic LLM可以泛化到这些长尾的问题上,那么专用的Agent可能就会被淘汰。

工作其实就是多轮使用工具的序列。哪怕是程序员,写代码也只占了工作的一小部分。

Agent 系统的主要目的不是模拟人,而是通用。所以它不需要跟人在每一个环节都对齐。它在目标是可以和人是对齐的,但是在做法上面,可能在某些方面是类似的,但是也有可能是不相同的。

做Agent,大模型公司 vs 应用公司有什么不同?

  • • 应用公司是在“逆向工程”:通过设计提示词、组合工具和上下文工程等方式,激发模型能力。
  • • 大模型公司是在做“正向工程”:在训练阶段就内建了对工具的理解和使用能力,所以在对应场景中表现更自然、更强大,比如Claude Code和ChatGPT Agent。

最大的瓶颈

Agentic LLM最大的问题是缺乏能真正衡量Agent泛化能力的Benchma。目前的benchmark非常不足,在某一些benchmark会过拟合不代表真正性能的提升。因为当前Agent的训练和评估都是“单点”的,容易在特定Benchmark上过拟合,而非获得真正的通用能力。

需要解决的问题

  1. 1. 高频使用的工具还可以做得更好
  2. 2. 长尾的工具无法泛化
  3. 3. 缺乏能真实反映Agent水平的Benchmark

未来

期待用Innovation的方式提高Agent能力,当模型能自我迭代(拥有Agentic功能的模型参与自身的开发过程)时,才会迎来真正的突破。

感想

听完这期播客,不知为何我想起了推石上山的西西弗斯。知识的边界不断拓展,旧问题解决了,新问题又来了——或许重要的不是终点,而是攀登本身。杨植麟目前坚持的,也许正是这样一种信念:大模型的前景尚未明朗,但只要持续把Agentic LLM做下去,就有机会改变很多事情。而即便问题永远不断,享受这个过程,本身就已是一种回应。

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询