微信扫码
添加专属顾问
我要投稿
杨植麟深度解析AI技术演进:从监督微调到强化学习的范式转变,Agent系统将重塑未来工作方式。 核心内容: 1. 大模型技术从监督微调转向强化学习的趋势分析 2. Agent系统的核心价值与未来发展方向 3. 当前AI发展面临的最大瓶颈:Benchmark不足问题
听了张小珺对杨植麟的访谈播客,我最大的感受是,杨植麟已经清晰地将自己定位成一位“攀登者”。他花很少篇幅谈论商业化,却深入分享了很多AI算法和趋势的看法,其中“强化学习”和“Agent”是出现频率最高的词。对比他以前的访谈,除了对Scaling Law的坚持没变,其它观点几乎都有刷新。
这种转变,很大程度上是由于行业标杆的推动——去年9月OpenAI发布o1,以及今年初DeepSeek的进展,让整个行业更加坚定地走向了强化学习之路。
他提到一本对他影响很大的书《The Beginning of Infinity》,书中有两句话:“问题是不可避免的”和“问题是可以解决的”。能感受到,他在研发过程中遇到了数不清的难题,而这两句话,某种程度上成了他坚持的信念。
他谈论的以下几个方面是我比较关注的:
最明显的是,整个技术范式正从“监督微调”转向“强化学习”。具体呈现为两种方式:
Agent的核心在于与外界交互,体现为多轮对话和使用工具。工具目前有联网和代码等第。以后会有个性化的工具,例如定制的文档接口,定制的公司的数据库,定制的api等等。如果Agentic LLM可以泛化到这些长尾的问题上,那么专用的Agent可能就会被淘汰。
工作其实就是多轮使用工具的序列。哪怕是程序员,写代码也只占了工作的一小部分。
Agent 系统的主要目的不是模拟人,而是通用。所以它不需要跟人在每一个环节都对齐。它在目标是可以和人是对齐的,但是在做法上面,可能在某些方面是类似的,但是也有可能是不相同的。
Agentic LLM最大的问题是缺乏能真正衡量Agent泛化能力的Benchma。目前的benchmark非常不足,在某一些benchmark会过拟合不代表真正性能的提升。因为当前Agent的训练和评估都是“单点”的,容易在特定Benchmark上过拟合,而非获得真正的通用能力。
期待用Innovation的方式提高Agent能力,当模型能自我迭代(拥有Agentic功能的模型参与自身的开发过程)时,才会迎来真正的突破。
听完这期播客,不知为何我想起了推石上山的西西弗斯。知识的边界不断拓展,旧问题解决了,新问题又来了——或许重要的不是终点,而是攀登本身。杨植麟目前坚持的,也许正是这样一种信念:大模型的前景尚未明朗,但只要持续把Agentic LLM做下去,就有机会改变很多事情。而即便问题永远不断,享受这个过程,本身就已是一种回应。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-02
初步调研|基于AI的自动化脚本自愈方案
2025-09-02
腾讯 ima 上新:1.11.0 AI播客音色优化和知识库导入网页链接
2025-09-02
阿里云 CIO 蒋林泉:AI 大模型时代,我们如何用 RIDE 实现 RaaS 的首次落地?
2025-09-02
有了这个大模型,真正的智能运维AIOps时代即将来临
2025-09-02
突破企业AI落地的瓶颈:LangGraph × OceanBase 的融合数据层深度实践与解析(附源码)
2025-09-02
腾讯元宝搜索实践:大模型时代,AI 如何让搜索焕发新生
2025-09-02
今天,AI内容新规正式实施,这次不注意是真的会违法。
2025-09-01
OpenAI gpt-realtime 与 Realtime API 重磅升级,语音智能体迎来生产级时代
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-09-02
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25