2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

Hermes Agent 出来了,聊聊它凭什么跟 OpenClaw 掰手腕

发布日期:2026-03-30 08:03:32 浏览次数: 6650
作者:沉浸式学AI

微信搜一搜,关注“沉浸式学AI”

推荐语

Hermes Agent虽是新秀,但凭借纯Python架构和自学习机制,为开发者提供了更透明、更可控的AI代理体验。

核心内容:
1. Hermes Agent与OpenClaw的核心差异:纯Python实现与自学习机制
2. 纯Python架构带来的代码可读性与系统信任优势
3. 实际安装体验与多平台支持特性

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Nous Research 上周开源了一个叫 Hermes Agent 的东西。

Hermes Agent

https://github.com/nousresearch/hermes-agent。

GitHub 上只有 15.9k star,对面 OpenClaw 是 340k。按常理,这种差距根本没什么好聊的。一个刚出生的婴儿和一个已经跑了三个月的选手,谁会去认真比较?

我一开始也是这个心态。但用了几天之后,我觉得得单独写一篇。

先说它是什么

Hermes Agent 是 Nous Research 做的一个开源 AI Agent。Nous Research 你可能听说过,也可能没听说过——他们是一家做开源大模型的 AI 实验室,之前出过 Hermes-4-405B 和 Hermes-4-70B 这些模型。模型质量在开源社区里口碑还不错,算是有点技术底子的团队。

Hermes Agent 跟 OpenClaw 一样,本质上是一个能帮你干活的 AI 代理。你可以用它写代码、搜信息、管文件、跑定时任务,甚至接到 Telegram 上当你的私人助手。

区别在于切入角度。

OpenClaw 走的是大而全的路线,功能多,生态大,社区活跃,各种插件和技能满天飞。Hermes Agent 的策略不太一样——它不跟 OpenClaw 比谁功能多,而是押注在性能可读性上。

具体来说,两个核心差异:一,Hermes 完全用 Python 写的;二,它有一套“学习”机制,用得越多越聪明。

这两点,第一个让我产生了兴趣,第二个让我决定认真试试。

纯 Python 为什么重要

这个点可能对非开发者来说没什么感觉,但对我来说很重要。

我之前用 OpenClaw 的时候,遇到问题想看源码,经常要在好几种语言和框架之间跳来跳去。不是说 OpenClaw 代码写得不好,而是当一个项目用多种语言堆起来时,你想搞清楚“它到底在干嘛”就得花更多功夫。

Hermes 全是 Python。

这代表什么?代表当这个 Agent 要帮你执行一个操作、修改一个文件、调用一个 API 的时候,你可以直接去看它的源码,看懂它在做什么。对于一个要在你机器上跑的、有终端权限的 AI Agent 来说,“我能看懂它的代码”这件事,本身就是信任的基础。

在我这么多年的工作经历中,最大的教训之一就是:你不理解的系统迟早会坑你。线上出过的最恶心的几次故障,根本原因都是“这段逻辑没人看得懂了”。一个在你本地跑的 AI Agent,权限比你的同事还大——它能读文件、写文件、执行命令——你最好能看懂它在干什么。

所以纯 Python 对我来说不是一个技术偏好问题,是一个信任问题。

装起来聊聊

Hermes 支持 Linux、macOS 和 Windows 的 WSL。安装就一行命令:

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

它会自动给你建一个虚拟环境,Python 和 Node.js 的依赖都装好。装完之后 reload 一下 shell:

source ~/.bashrc

整个过程很顺滑,这是实话。比我第一次装 OpenClaw 的体验好。

装完之后它有一个引导流程,让你配 API Key、选模型之类的。坦白说,这个引导做得不如 OpenClaw 友好,有点粗糙。但问题不大,因为它的文件结构非常清晰:

~/.hermes/
├── config.yaml          # 主配置文件
├── .env                 # API 密钥
├── auth.json            # OAuth 认证
├── SOUL.md              # 人格设定(可选)
├── memories/            # 持久记忆
├── skills/              # 技能库
├── cron/                # 定时任务
├── sessions/            # 会话记录
└── logs/                # 日志

看到这个目录结构我心里就踏实了。所有密钥在 .env 里,配置在 config.yaml 里,技能是独立的文件,记忆是独立的文件夹。每个东西在哪儿、干什么用,一目了然。

OpenClaw 把一些配置信息放在 JSON 和 txt 文件里,API Key 有时候还得 export 环境变量,用久了总会遇到“我这个 Key 到底配在哪儿了”的问题。Hermes 这个 .env 集中管理的方式,至少在组织上干净很多。

模型配置很灵活

Hermes 不限定你用哪家的模型。你可以用 OpenAI、OpenRouter、Nous Research 自己的 API,如果硬件够的话也能跑本地模型。

切换模型就一个命令:

hermes model

它会列出所有可用的 provider,你选一个就行。也支持自定义模型——比如 Nvidia 前几天在 OpenRouter 上放了一个免费的 nemotron-3-super-120b-a12b,直接填上就能用。

这个灵活度跟 OpenClaw 差不多,这方面两边打平。

配置相关的 CLI 也很直观:

hermes config              # 看当前配置
hermes config edit         # 编辑 config.yaml
hermes config set KEY VAL  # 设置具体值
hermes config check        # 检查缺失项

比如你想换模型:

hermes config set model anthropic/claude-opus-4

比如你想换终端后端:

hermes config set terminal.backend docker

甚至可以直接通过 CLI 设置 API Key:

hermes config set OPENROUTER_API_KEY sk-or-...

这些操作在 OpenClaw 里也能做,形式不同而已。但 Hermes 的命令设计确实更“Unix 味”一些,对习惯命令行的人来说很舒服。

聊天界面和斜杠命令

跟 Agent 对话就一个词:

hermes

进去之后是一个终端聊天界面。

这里有一个我觉得设计得挺好的地方——它支持上百个斜杠命令(/ 开头),每个命令旁边都有简短说明。你不用背命令,输入 / 就能看到列表和描述。


这比“你得先去看文档才知道能干什么”的体验好太多了。虽然是个小细节,但小细节往往决定一个工具你愿不愿意继续用。

我上周买了个新键盘,红轴的,打字声音小了很多。这跟今天的话题没关系,但自从换了键盘之后我在终端里打字的意愿明显提高了。有时候你不想用一个工具,不是工具不好,是你的键盘太吵了导致室友会瞪你。

真正有意思的:学习机制

好了,说到 Hermes 真正让我觉得“这东西值得关注”的特性。

它有一套学习系统。不是那种营销话术里的“AI 会学习”,是实实在在的、你能看到的机制:

当你跟它交互时,它会把学到的东西变成可复用的技能(skills),通过经验改进这些技能,把有用的信息存进记忆,还能搜索之前的对话。

举个例子。你第一次让它帮你部署一个 Python 项目到某个服务器上,它完成之后会把这个流程记下来,生成一个 SKILL.md 文件。下次你再让它做类似的事情,它会直接调用上次生成的技能,还能根据这次的新情况调整优化。

会话也是持久化的。你可以列出之前的会话:

hermes sessions list
hermes sessions list --source telegram
hermes sessions list --limit 50

甚至可以导出所有会话,迁移到另一台机器上——不丢信息。

这带来一个实际的好处:这个 Agent 用一个月和用一天是不一样的。它在积累对你的理解,积累对你工作方式的了解。理论上,用得越久,它越好用。

我说“理论上”是因为这个功能到底能好用到什么程度,我现在还没法下结论。我才用了几天,还没有足够的数据来判断它的学习效果是不是真的显著。但至少这个方向是对的——一个工具如果不能随着使用变得更顺手,那它就只是一个工具;如果能,它就接近一个助手了。

不过这也引出了一个代价:因为要做学习和记忆,Hermes 在使用过程中有额外的开销。有人反映它比 OpenClaw 慢一些,我自己的体感也是如此。这大概率跟学习系统有关——它在后台做笔记、更新技能,这些都是要消耗时间和 token 的。

技能系统值得展开说说

Hermes 预装了不少技能:

  • Claude Code
    :把编程任务委托给 Anthropic 的 CLI Agent
  • Apple Notes
    :在 macOS 上通过命令行管理备忘录
  • YouTube Content
    :抓 YouTube 视频字幕,转成结构化内容
  • OpenHue
    :控制飞利浦 Hue 智能灯
  • Nano PDF
    :用自然语言编辑 PDF

这些预装技能质量参差不齐,有些挺实用,有些感觉是为了凑数。

更有意思的是自己创建技能。原文作者做了一个很典型的例子——他把默认的 Firecrawl 网页搜索替换成了 Perplexity Sonar,这样就不用多配一个 API,直接复用 OpenRouter 的 Key 就行。

创建技能的方式是写一个 SKILL.md 文件,里面描述技能的名称、用途、配置步骤、测试方法。格式很简单,基本上就是 Markdown 加一些 YAML 头信息。

这是他替换搜索引擎的 SKILL.md 片段:

---
name: perplexity-web-search
description: Configure Hermes to use Perplexity (via OpenRouter) for web search
version: 1.0.0
author: Pecas
license: MIT
---


# Perplexity Web Search

Configures Hermes to use Perplexity's `sonar-pro` model via OpenRouter 
for web search instead of Firecrawl.

## Key Components

### Perplexity Client
Use AsyncOpenAI with OpenRouter base URL:
- base_url: https://openrouter.ai/api/v1
- model: perplexity/sonar-pro

整个技能系统的设计理念是:让 Agent 自己帮你写技能,然后你审阅一下就行。你告诉它“我想要一个能在 Telegram 群里记账的功能”,它会帮你生成代码、生成 SKILL.md、测试、部署。你只需要看一眼生成的文件确认没问题。

他还做了一个 Tricount 风格的记账功能直接跑在 Telegram 群里,跟女朋友一起用。这种“小而具体”的使用场景,其实才是这类 Agent 最有价值的地方。不是什么“改变世界”的大项目,就是把日常生活中的小需求用 AI 自动化掉。

Telegram 集成

说到 Telegram,这是 Hermes 跟 OpenClaw 都支持的功能,把 Agent 接到 Telegram 上当聊天机器人用。

流程很标准:

  1. 在 Telegram 里找 BotFather
  2. 发 /newbot
  3. 起个名字和用户名
  4. 拿到 API Token
  5. 用 @userinfobot 获取你的用户 ID

然后运行:

hermes gateway setup

选择 Telegram,按提示填入 Token 和用户 ID。或者直接写进 .env 文件:

TELEGRAM_BOT_TOKEN=8566...
TELEGRAM_ALLOWED_USERS=835...
TELEGRAM_HOME_CHANNEL=835...

Gateway 是 Hermes 的一个后台进程,负责跟 Telegram、Slack 等平台通信。基本的操控命令:

hermes gateway start
hermes gateway stop
hermes gateway restart

我试了一下 Telegram 集成,能跑。配置过程比预期顺利,没遇到什么坑。如果配完之后 bot 没反应,先试试 restart gateway,大概率能解决。

有一个细节值得提:Hermes 的 TELEGRAM_ALLOWED_USERS 设置意味着只有指定的用户才能跟 bot 对话。这是一个安全细节,防止别人随便找到你的 bot 就能用你的 API 额度。OpenClaw 也有类似机制,这方面两边都做了该做的事。

个性化定制

Hermes 允许你给 Agent 设置“人格”,内置了几个预设:

  • helpful:友好的通用助手
  • concise:简洁风格,说重点
  • technical:技术专家模式
  • creative:创意模式
  • mother:像妈妈一样有耐心(但直奔主题,不叫你“亲爱的”)
  • teacher:耐心的老师
  • kawaii:可爱风,满屏颜文字和星星

你也可以自己加一个。在 config.yaml 里写好人格描述,然后指定名字就行:

display:
personality:mother

还能改 Agent 的名字。在 skins 文件夹里创建一个 YAML 文件:

branding:
agent_name:"Pecas"

然后在 config.yaml 里引用:

display:
skin:pecas-skin

皮肤文件里还能配欢迎语、告别语、提示符样式、UI 颜色什么的。

说实话,这些个性化功能对我来说用处不大。我不需要我的 Agent 跟我卖萌。但如果你是那种喜欢把工具调教成“自己的样子”的人,这些选项确实给得很充足。

TTS 和 STT

Hermes 支持文字转语音(TTS)和语音转文字(STT)。

TTS 支持三种后端:

tts:
provider:edge# 免费
edge:
voice:en-US-AriaNeural
elevenlabs:
voice_id:pNInz6obpgDQGcFmaJgB
model_id:eleven_multilingual_v2
openai:
model:gpt-4o-mini-tts
voice:alloy

Edge 是免费的,够用了。ElevenLabs 和 OpenAI 的声音质量更好,但要钱。

STT 目前只支持 OpenAI 的 Whisper:

stt:
enabled:true
model:whisper-1

这里有一个跟 OpenClaw 的区别:OpenClaw 开了 TTS 之后,每条消息都会自动生成语音;Hermes 不会,你得主动要求它给你语音回复,或者写一个技能让它自动生成。

原文作者觉得 Hermes 这种方式更好,因为省内存,不用每次都听语音。我同意。大部分时候我只想看文字,偶尔才需要语音。自动生成语音是一种浪费。

顺便提一句,最近 GitHub 上有一个叫 Fish Speech 的开源 TTS/STT 项目,效果很不错,可以本地跑也可以用 API。如果你对语音交互有兴趣,可以看看。

定时任务

跟 OpenClaw 一样,Hermes 也支持 cron 定时任务。你可以让它每天早上给你发一条天气预报,或者每周五下午提醒你提交周报。

hermes cron list    # 查看定时任务

删除定时任务用斜杠命令:

/cron remove

这个功能本身没什么好说的,cron 就是 cron。能跑就行。

它做得不好的地方

说了这么多优点,该说说问题了。

第一,没有 audit 命令。OpenClaw 有一个审计功能,可以检查你的 Agent 配置是否合理、有没有安全隐患、有没有违反最佳实践。Hermes 没有这个。你能做的最接近的操作是在聊天里输入 \insights,看一个使用摘要——会话数量、花了多少钱、活跃时间等等。但这跟安全审计是两回事。

对于一个有终端权限的 Agent 来说,没有审计功能是一个明显的短板。

第二,没有 dashboard。OpenClaw 有一个可视化面板,能看到 Agent 的状态、历史操作、资源消耗。Hermes 全靠命令行。对我来说无所谓,我本来就住在终端里。但如果你是一个更偏向图形界面的用户,这可能是个问题。

第三,速度。前面提过了,Hermes 因为学习系统的存在,在响应速度上比 OpenClaw 慢一些。不是慢到不能用,但能感觉到。原文作者的判断是换一个更快的模型或者调一下配置能缓解,我觉得应该是这样,但我还没有详细测过。

第四,社区规模。15k star 对比 340k star,这个差距是真实的。社区小意味着遇到问题时能搜到的解决方案少,能用的第三方技能少,更新迭代的速度可能也会受影响。当然 Hermes 才出来几天,拿现在的数据跟 OpenClaw 三个月前比不公平,但这是现状。

操作透明度是个亮点

有一个细节我觉得值得单独拎出来说。

Hermes 在执行操作的时候,会把它做的每一步都显示出来:

💻 terminal: "mkdir -p ~/.hermes && touch ~/.hermes..."
✍️ write_file: "/home/ubuntu/hermes-agent/expense_tra..."
💻 terminal: "cd /home/ubuntu/hermes-agent && pytho..."
💻 terminal: "cd /home/ubuntu/hermes-agent && pytho..."
📝 skill_manage: "expense-tracker"
💻 terminal: "echo "Date,User,Description,Amount" >..."

每一个终端命令、每一个文件写入、每一个技能操作,都明明白白列在那里。

OpenClaw 也有类似的日志功能,但 Hermes 这个显示方式更直观一些。你可以实时看到它在干什么,然后去检查它改了哪些文件。对于一个有系统权限的 Agent,这种透明度不是加分项,是必需品。

MCP 集成

Hermes 支持 MCP(Model Context Protocol),你可以接入各种外部服务。原文作者举了一个 Apify MCP 的例子——通过 MCP 接入 Apify,就能让 Agent 抓取 TechCrunch 新闻、获取技术岗位列表等等。

配置方式是给 Hermes 一个 JSON:

{
"mcpServers":{
"apify":{
"url":"https://mcp.apify.com/?tools=actors,docs,...",
"headers":{
"Authorization":"Bearer <YOUR_API_TOKEN>"
}
}
}
}

然后让 Hermes 自己根据这个 JSON 创建对应的技能。

MCP 的支持是个好信号,说明 Hermes 团队在走标准化路线,而不是搞一套自己的封闭接口。但说实话,MCP 本身现在还处于一个“大家都在说但真正用起来的人不多”的阶段。我自己目前还没在生产环境中重度依赖 MCP,所以这块不多评价。

那 Hermes 和 OpenClaw,到底选谁

这大概是很多人最想知道的。

我的判断是这样的:

如果你现在就需要一个成熟的、社区庞大的、功能完备的 AI Agent,选 OpenClaw。三个月的积累不是白来的,它的文档更全,技能更多,遇到问题更容易找到答案。审计功能和 dashboard 也确实有实际用处。

如果你是一个 Python 开发者,希望能深入理解和定制你的 Agent,并且愿意接受“还在早期”的粗糙感,Hermes 值得试试。纯 Python 的代码库、清晰的文件结构、.env 集中管理密钥,这些在日常使用中确实能减少很多麻烦。

如果你对“Agent 能不能随着使用变得更好用”这个方向感兴趣,Hermes 的学习机制目前是我见过的开源 Agent 里做得最扎实的。不是 README 里写个“we support memory”就完事了,它实实在在地把技能生成、经验积累、会话搜索。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅