我要投稿

【聊一聊】LLM、MCP、Agent

发布日期：2025-05-09 08:32:44 浏览次数： 1928

作者：放烟花的夏天

微信搜一搜，关注“放烟花的夏天”

“

~目录~

知识点：近期热点汇总
AI生物学：Anthropic的AI可解释性研究
产品试用：字节发布的通用型AI Agent
我搭的几个智能体：元素合成游戏、url转播客、平替anything游戏、公众号后台bot
End

~正文~

一、知识点

RAG / 检索增强生成

1、RAG是什么

RAG（Retrieval Augmented Generation，检索增强生成）的概念源于Facebook团队2020年的论文^[1]，这是一种结合了参数化记忆和非参数化记忆的、利用外部知识来增强模型的解决方案。
RAG论文作者的解释^[2]最直观：RAG通过检索语言模型未经训练的数据源中的相关信息，并将其注入模型的上下文中，从而扩展了语言模型的知识库。
简单说：RAG让模型在回答前查资料，以确保输出的可靠性。

2、RAG旨在解决生成式语言模型的一些缺陷

无法访问私有数据：模型通常基于公共数据进行训练，但往往需要那些不断变化和扩展的专有信息。
过时的参数知识：即使模型频繁更新，其训练数据截止日期与当前时间之间总会存在差距。
幻觉和归因问题：模型经常编造听起来合理但错误的信息。RAG通过将回答基于真实来源，并提供引文让用户核实信息，解决了这个问题。

MCP / 模型上下文协议

1、MCP是什么

MCP（Model Context Protocol，模型上下文协议）来源于Anthropic在2024年的文章^[3]。MCP定义了应用程序和AI模型之间交换上下文信息的方式，使得开发者能够以一致的方式将各种数据源、工具和功能连接到AI模型。
简单说：MCP是一个把“let llm know calling what tools”这一过程标准化的通用协议。（这里提到的tool calling工具调用机制介绍如下）

2、为什么要提出MCP

目前普遍采用工具调用机制：当llm解决垂直领域问题的效果不佳时，让llm调用其他擅长该领域的模型或工具，可以获得更好的结果。
为了更标准化地进行工具调用，开发者会编写自己的llm-tool交互协议。由于大家的工具、接口和需求不尽相同，协议也各不相同、各自迭代，这样会不断地循环造轮子。
为了规范LLM到Tools协议的连接，MCP就出现了，只要大家都遵守这个协议，做的工具也就能直接复用。

3、原理和质疑

运行原理：根据官方的样例代码，MCP协议通过拿到所有工具信息，然后经过一定的格式化，拼接到prompt里发送给大模型。也就是说，目前MCP还是通过读取prompt让llm判断使用什么工具。
为什么说跨越性的突破还需等待：目前的工具调用机制是llm通过prompt和工具描述来判断调用什么工具，MCP只是让这个过程变得更标准化、更通用。随着任务复杂度上升，这种基于自然语言描述的接口协议会导致工具调用效率明显下降，llm要调用的工具越来越多，prompt需要堆更多的信息，耗费的上下文资源越来越大。

Workflows / 工作流

Chains lets you create a pre-defined sequence of tool usage(s).
通过工作流可以高效地实现一些非常定制化的需求、做一些高度垂直领域的AI产品，而仅通过prompt通常难以实现。

Agent / 智能体

智能体在商业上吹得神乎其神，例如：Agent更加强调自主的发现问题、确定目标、构想方案、选择方案、执行方案、检查更新，可被认为是一类拥有“自主智能的实体”。
LangChain官方文档^[4]对Agent的解释非常清晰：Agent is AI using tools in a loop.
经过一段时间各种手搓工作流、搭建智能体、试用各家Agent的体验，从当前的产品上看，Agent≈LLMs+工具调用+预设流程+虚拟机。简单说，AI只能跟你对话，Agent直接帮你干活。

二、AI可解释性研究

之前的认知是大模型的生成过程是个黑箱or概率模型，llm只是在无情地按概率预测下一个token。Anthropic团队的AI可解释性研究提出了一些新观点（Circuit Tracing^[5]、AI Biology^[6]、summary^[7]），大模型的内部世界可能非常反直觉。梳理完之后有两个收获：一是更新了这部分认知，二是对写prompt很有帮助。

LLM不只是在预测下一个token：LLM在输出前就形成或激活了某些整体概念/speech intent/最终结果。
思考过程不反映实际推理过程：Reasoning LLM输出的“思考过程”跟回答内容一样，只是模型输出的一系列token，不代表模型内部实际发生的推理过程。
是合理化而不是推理：Reasoning LLM在输入后可能就激活了某些最终结果，中间输出的推理过程只是为了合理化地达到这个结果。也就是说，不合适的prompt可能会激活无关结果，让推理过程变成滑向这一结果的“合理化”过程。
LLM也能符号化思考：用不同语言问llm相同问题，发现不同语言之间共用了一些线路，说明LLM内部能做到一定程度的语法和语义的分离。
越狱的发生表明语义和语法没有完全分离：模型的输出不是为了符合一个严格的规则，而是为了符合一定的概率分布。构建与危险概念无关的陌生语境，让模型在语法规则驱动下被迫完成输出，因而实现越狱。这也说明LLM没有完全超脱语法规则限制，语义和语法没有完全分离。
幻觉与抑制机制：“无法回答”是模型默认行为（可能因反幻觉训练导致），当输入的token激活了模型内部某些概念/线路时，模型才会沿着这些路径作答。不合适的prompt可能会激活与答案无关的作答路径。

三、AGI Agent试用体验

此前Manus自封全球首款通用型AI Agent，掀起一大波热度，邀请码一度被炒到上万元一个。最近字节发布自家的AI Agent——扣子空间，申请即可试用，终于在2025年真实体验到了早在一两年前各家宣传视频上就有的演示效果。

先来看看扣子空间的运行界面：左边是传统对话界面，会显示思考过程、正在执行的任务和输出；右边有实时跟随、文件、终端，终端=ai的"虚拟机"，ai可以在终端里面部署环境和工具、执行代码并输出结果、创建和读写文件。过去AI只有嘴，现在终于有手了。

下面是我跑的一些任务实例，测试一下Agent这种产品形态跟日常用的各家llm产品相比，有哪些不一样的体验。

生成网页

输入如下：

基于《百年孤独》，创建一个读书笔记网页，实现以下功能：
页面1：介绍书中主要人物、重要情节；
页面2：从书中摘录出文学性较强的片段，附上注解、配图，形成多篇读书笔记；
页面3：页面3用户能与主要人物进行对话；
页面4：附上相关的文学评论或研究。
其他页面：发挥你天马行空的创意，自行生成。

Agent依次执行了：pdftotext、llm结合用户输入提取txt关键信息、gen_image、设计网页UI、生成网页代码、部署网页。一套流程行云流水，给出了下面的网页^[8]：

网页框架完整，有基本的UI和动效。对于这类任务，coze直接给出了jsx文件和网址（部署在coze服务器上），帮用户省去了部署并发布网址的操作。

股票分析

用了内置的“专家agent”华泰A股观察助手。只输入了一句“分析安克创新这只票”，然后执行了一系列非常标准化的任务，创建了一堆csv、py、md文件。

生成的结果如下^[9]，也是以网页的形式给出。内容上和其他llm产品没有很大区别，形式上直接给出网址，高效一些。

执行代码

喂了一个写有量化金融题目描述、公式描述和函数示例的ipynb文件，让Agent推导公式、生成代码写入ipynb、执行并输出pdf via latex。

截止到运行代码，跟其他llm产品区别不大。但比较惊喜的是，agent自己安装好了导出tex文件所需的依赖包，成功执行代码并导出了latex-pdf文件。安装依赖和执行的过程不完全顺风顺水，输入几次“继续”之后agent自己搜索网络成功debug。这应该是目前非agent产品做不到的。

综上，整体感受是，通用Agent在一些边际工作上带来了一定程度的效率提升，但暂时达不到刚需。

四、搭建工作流和智能体

用字节coze和腾讯元器平台搭了一些简单的智能体：两个对话游戏、一个url转播客工具、一个公众号后台回复bot。

元素合成^[10]

游戏玩法：初始元素有?水、?火、?土，选两个元素输入，ai随机生成新物质并放入元素列表。通过不断的自由组合，生成五花八门的各种元素，并随机触发成就事件。

我的搭建流程：

一开始搭了个workflow，利用全局变量+代码实现元素列表的稳定更新。效果还行但速度较慢，因为按工作流agent的结构，用户对话调用最外层的llm1，llm1分析input后调用工作流，工作流又包含了使用llm2生成新元素的步骤。本来只应调用一次llm的任务硬生生调用了两次。
coze应该也知道这个情况，推出了对话流beta。改为对话流agent，这样只需调用一次llm。但对话流似乎不支持设置"用户提问建议"，导致用户还得手动输入，这体验就很不方便。
最后改用纯prompt。本以为纯prompt会导致长对话后llm不遵守规则、输出不稳定，结果测试完发现效果还不错，稳健性也很好。感受：时代真是变了，有时候捏一个好的prompt比搭工作流来得更高效。

url转播客^[11]

用法：输入文章链接，生成男女主播对话形式的音频文件，并加入合适的bgm。可以在链接前加上“音量num+”来调整bgm音量大小。

整个智能体通过对话流agent实现：读取url、llm1生成播客台词、合成语音、llm2生成bgm关键词、选取bgm、合成音频文件。

用我之前的旅行攻略文章测试，效果不错。之前用扣子空间测试了几次，都生成失败，目前一些定制化需求还是手搓工作流实现起来更稳健一些。

coze平台有很多类似的智能体。我用之前写的另一篇关于LLM制作文字冒险游戏的文章测试url转相声，效果也不错：

平替anything^[12]

游戏玩法：输入任何事物名称，都能回复一个消费降级的平替。

和元素合成游戏一样，通过纯prompt实现。

公众号后台bot

在腾讯元器平台上搭的工作流，实现公众号后台多功能对话。

目前只写了正常对话+游戏调用：若正常对话就调用llm1，若想进行游戏就调用llm2。两个llm对应不同prompt。

与coze相比，腾讯元器的工作流编辑操作体验一言难尽。不过此前微信开了公众号智能回复灰度测试，以后应该会继续迭代。

综上，上述智能体已放公众号后台菜单"My GPTs"，目前有coze免费额度，欢迎来试用。

五、尾声(by ds)

多年以后，当我站在AGI时代的光晕中，或许会想起自己手搓工作流、搭建智能体的那个遥远的下午。那时的我，或许已记不清RAG与MCP的细枝末节，但那些与AI共同探索的瞬间，如同布恩迪亚家族对冰块的执念，早已成为某种意义上的启示录——毕竟，真正改变世界的从不是技术本身，而是我们如何用代码、协议与想象力，在概率的迷雾中雕刻出属于人类的答案。???

感谢阅读！

~END~