微信扫码
添加专属顾问
我要投稿
一直以来,人们都在追求能够达到或超越人类水平的人工智能,AI Agent目前被视为能够实现这一目标的有前途的载体。Agent是能够感知环境、做出决策并采取行动的智能体。本文会对基于LLM的Agent做一个全面概述,包括为什么LLM适合作为Agent的基础,以及包含三个主要组成部分:大脑(brain)、感知(perception)和行动(action)的框架,并可以根据不同的应用进行定制。。
知识获取能力:通过在大规模文本数据上的预训练,能够获得丰富的知识,包括语言知识、常识知识以及特定领域的专业知识。
指令理解:LLM展现出了对自然语言指令的理解能力,这使得它们能够遵循用户的指令并据此做出决策。
泛化能力:LLM在预训练过程中学习到了广泛的语言模式,这使得它们能够在没有明确编程的情况下处理各种任务。
推理和规划:LLM能够进行一定程度的逻辑推理和规划,这对于Agent在复杂环境中做出决策至关重要。
交互能力:LLM能够与用户进行自然的多轮对话,这有助于Agent更好地理解用户的需求和上下文。
自我改进:LLM具有一定的自我改进能力,它们可以通过反馈学习来优化自己的行为和决策。
可扩展性:LLM可以通过微调来适应特定的任务或领域,这为Agent的定制化提供了可能。
多模态处理:尽管LLM主要处理文本数据,但它们也可以与其他类型的输入(如视觉、听觉)结合,以支持更丰富的感知能力。
...
基于LLM的Agent的大脑模块,是Agent的核心组成部分,负责存储知识、记忆,并执行信息处理、决策制定、推理和规划等关键任务。研究是也是非常非常的多,但是他可以细分为以下5大模块:
大脑模块的设计灵感来自于人类大脑,它不仅是信息处理的中心,也是决策和创造性思维的源泉。在LLM基础的Agent中,大脑模块通过模仿这些人类智能的方面,使得Agent能够展示出智能行为,并能够适应和处理各种任务和环境。
文本输入:
视觉输入:
听觉输入:
其他输入:
文本输出:
工具使用:
具体行动:
文章标题:The Rise and Potential of Large Language Model Based Agents: A Survey
项目地址:https://github.com/WooooDyy/LLM-Agent-Paper-List53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-11
压进我十年设计经验的 PPT Skills,迎来大波更新
2026-05-11
Claude Code:你需要知道的一切
2026-05-11
当 AI 巨头开始做咨询:企业 AI 从模型战争进入交付战争
2026-05-09
谁来给企业端即将大规模入职的Agent盖办公室?
2026-05-09
鹅厂员工觉得好的code模型应该具备什么能力?
2026-05-09
Markdown要被抛弃了?Claude Code工程师自曝:我已彻底放弃使用Markdown!团队倾向使用HTML!网友:其他编辑工具会被淘汰吗?
2026-05-09
“Claude Code 你就作吧,我换 Codex 了”
2026-05-09
LLM 输出到这步才算可靠:生产级输出验证与质量工程实战
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-04-07
2026-03-17
2026-03-17
2026-03-21
2026-04-07
2026-02-20
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18