微信扫码
添加专属顾问
我要投稿
探索大模型的未来形态及其对应用公司的影响。 核心内容: 1. OpenAI Deep Research模型的内部执行能力与强化学习应用 2. Anthropic对Agent的定义及其在大模型中的重要性 3. 模型作为产品的未来趋势及其对应用公司的影响
导读:
OpenAI 说 Deep Research 其实是一个模型,它基于 o3 训练,但不是 o3 加一堆工作流。
Anthropic 对 Agent 的定义是:Agent 必须在内部执行目标任务,而不是依赖外部的工作流。
在强化学习时代,给模型一个封闭的环境和奖励,模型就可以学会这个环境的生存法则。
强化学习可以让大模型+工作流真正变为内化的 Agent,完成端到端的任务。
如果模型公司已经可以完成端到端任务,是不是模型本身就是应用?
那应用公司的空间是否依然存在?这个问题值得思考。
本文部分摘录并翻译自 Alexander Doria,一家正在做 RAG Agent 的联创。
摘录开始:
在过去几周,我们看到了"模型作为产品"的两个典型例子:OpenAI 的 Deep Research 和 Claude Sonnet 3.7。
我读到很多关于 Deep Research 的误解,这些误解因开源和闭源克隆产品的增多而更加严重。OpenAI 并非仅在 O3 之上构建了一个包装器。他们训练了一个全新的模型,能够在内部执行搜索,无需任何外部调用、提示或编排:
深度研究模型由针对网页浏览优化的早期版本 OpenAI o3 提供支持。
该模型学习了核心浏览能力(搜索、点击、滚动、解析文件)(...),并通过对这些浏览任务的强化学习训练,学会了如何推理以综合大量网站信息,找到特定内容或编写全面报告。
Deep Research 不是标准的 LLM,也不是普通的聊天机器人。它是一种新型的"研究语言模型",专门设计用于端到端执行搜索任务。
对于认真使用它的人来说,这种差异立即显现:该模型能生成结构连贯、具有系统化源分析过程的长篇报告。相比之下,正如 Hanchung Lee 指出的,其他所有的 Deep Search,包括 Perplexity 和 Google 的变体,都只是带有一些微调的常规模型:
Google 的 Gemini 和 Perplexity 的聊天助手也提供"深度研究"功能,但它们都没有发布任何关于如何为此任务优化模型或系统的文献,也没有进行任何实质性的定量评估(...)我们假设它们所做的微调工作并不显著。
Anthropic 一直在更清晰地阐述他们的愿景。去年十二月,他们提出了一个有争议但在我看来正确的 Agent 模型定义。
类似于 Deep Search,Agent 必须在内部执行目标任务:它们"动态指导自己的过程和工具使用,控制完成任务的方式"。
目前大多数 Agent 初创公司构建的不是真正的 Agent,而是工作流,即"通过预定义的代码路径编排 LLM 和工具的系统"。工作流在某些垂直领域仍可能创造价值。
然而,对于现在在大型实验室工作的人来说,显而易见的是,自主系统的所有重大进展都将首先通过重新设计模型来实现。
Claude 3.7 的发布就是一个非常具体的例证,这个模型主要是为处理复杂代码用例而训练的。所有类似 Devin 的工作流调整在软件工程基准测试中都获得了显著提升。
再举一个小规模的例子:在 Pleias,我们目前正致力于 RAG 的自动化。
当前的 RAG 系统由许多相互关联但脆弱的工作流组成:路由、分块、重排序、查询解释、查询扩展、源上下文化和搜索工程。
随着训练技术栈的发展,有可能将所有这些流程整合到两个独立但相互关联的模型中:一个用于数据准备,另一个用于搜索/检索/报告生成。
这需要精心设计的合成流程和全新的强化学习奖励函数。真正的训练,真正的研究。
这在实践中意味着:转移复杂性。
训练预先考虑了各种行动和边缘情况,使部署变得更简单。但在这个过程中,大部分价值现在由模型训练者创造,最终也可能被他们获取。
简而言之,Claude 的目标是颠覆并取代当前的工作流,比如来自 llama index 的这种基本"代理"系统:
替换为这样:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
深度解析OpenAI和Google智能体白皮书及背后两种路线|大模型研究
2025-04-30
MCP入门指南:大模型时代的USB接口
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28