我要投稿

比Codex快4倍！终于有开源模型卷本地Agent执行效率了～

发布日期：2026-06-08 11:09:28 浏览次数： 1528

作者：袋鼠帝AI客栈

微信搜一搜，关注“袋鼠帝AI客栈”

兄弟们，现在大家电脑上一定要人手一个本地Agent，因为当你搞不定很多事情的时候，可以直接丢给本地Agent。比如Codex、Claude Code，OpenClaw，或者Hermes等等。

然后我发现现在Agent干活越来越稳了。但是干活的效率（速度）始终提不起来。

这期文章，我将给大家分享我对如何提高Codex、OpenClaw、Claude Code等Agent的干活效率的探索。

我最近看到阶跃新开源的一个叫Step 3.7 Flash模型。据说它的Agent能力很强，同时还支持多模态。而且作为Flash模型跑得贼快。

https://github.com/stepfun-ai/Step-3.7-Flash

初步体验，我就把Step 3.7 Flash接入了Codex，我就发现它这个输出速度确实是轻松碾压了GPT-5.5的最快形态（大概快了4倍左右）。

Codex+GPT-5.5最快速的模式：

我还专门把它两生成文字复制到飞书文档里面，并查看信息，都没有达到3000字，但字数都差不多，step3.7 flash生成了2500多字，GPT-5.5生成了2600多字。

Step 3.7 Flash是一个198B参数的开源多模态大模型，视觉编码器大小为1.8B，激活参数11B。

原生支持图像理解，在工具链配合下可以处理视频素材，有256K的长上下文。最高生成速度可达400 Tokens/s。

为了提升本地Agent们在我的某些场景下的干活效率，我决定尝试把Step 3.7 Flash接入我本地的Claude Code。

毕竟官方就有现成的接入指南。

本来我是想接入Codex体验的，但是为了适配Codex，还得装一个叫Codex++的中间件，麻烦。而且即便加了Codex++，适配还是不够丝滑，废了不少时间，最后放弃了。

我这几天体验下来，发现step3.7 flash在以下几个场景效果都相当nice～

1. 视频提示词倒推，纯提示词复刻视频

整个体验过程中，我发现Step 3.7 Flash的视觉能力贼强，真的，就特别适合用来跑一些需要用到视觉理解的任务。

比如让它帮我倒推一些精彩视频的提示词，用纯提示词复刻视频。

整个工作流很简单：把一段短视频丢给它分析，让它逆向还原出这条视频的提示词，然后把提示词拿去新的视频生成AI里重新生成，效果出乎意料的好。

以后你看到任何一条效果好的短视频，你都可以快速"解构"它、复刻它、再创作它。对于短视频从业者、品牌方、内容创作者来说，这可能是一个真正省时间的工具组合。而且它是开源的，用API调用成本极低（文末有提及）。

过程是这样的：我把Step 3.7的Step Plan接入到Claude Code，然后直接调用Step的API，在当前工具链支持下，我把视频素材交给 Step 3.7 Flash 分析，让它给出一份用于复刻原视频的分镜文档：

得益于Step 3.7的速度真的很快，咔咔就分析完毕了，生成了快两百行的分镜文档，从每个镜头的prompt，到音乐节奏考虑，甚至每个AI工具使用的注意事项，都写进去了。

然后，我就把整个倒推出来的提示词文档，一口气直接丢给Seedance2.0，过了一会儿，结果就一次性出来了。

我觉得可以做成工作流，批量复刻有趣的短视频。step3.7 flash可以在整个流程里面节约大量时间和token成本。

2. 视频理解找出违反物理规律的地方

这是DeepSeek V4 Pro一次性做的小球运动，人眼是可以轻易看见是有bug的，违反物理学的缺陷的地方。

让Step 3.7视频理解来分析，看看能不能准确找出问题，而且给出精确时间点。

结果它还真找出来了，时间点定位得相当准。

做AI视频生成的团队应该会喜欢这个，以前每条视频可能都要人工一帧帧检查物理缺陷，现在丢给它先过一遍，可以省不少事。

3. 视觉分析+图片联网推理定位地点

不仅能识别视频，还能把视觉线索和联网检索结合起来，这一点也很不错。

比如这张我朋友圈的风景照图片，你能一眼看出是哪里吗？

看到姑娘的服饰，如果不告诉我，我只能猜是少数民族地区（可能是新疆），然后试着考考Step 3.7 flash。

Step 3.7先是进行了一轮思考，发现了后面有CCTV字样，这也是我自己乍一看没留意到的地方。

然后又发现了露出来的半个招牌，"公羊"二字。然后又结合其他辅助信息，进行了一轮搜索，然后又思考了一轮，直接确定位置详细到具体是新疆伊犁哈萨克自治州伊宁市六星街的黑公羊餐厅店铺！

有点惊人，我本以为知道大概哪个市就不错了，没想到精确到店铺了。

4. 解决Win11经典Bug，一个系统服务的内存泄漏问题

最近我把系统更新到了Win11，今天一早起来，发现内存爆红了。

打开任务管理器一看，发现一个进程有点奇怪，占用了将近2.4GB但是却不使用CPU。

于是我把这张截图发给接入了Step 3.7 Flash的Claude Code问了一下。

发现原来这是一个系统服务的内存泄漏，是Windows 10/11持续了近10年的"经典级"已知Bug，微软多次修复但从未彻底根治。

出于系统安全考虑，Claude Code我没给最高系统权限，可以看见Step 3.7 flash积极采用了多种方式包括重启服务、杀进程、修改注册表等不同的方式，尝试帮我解决问题，但是因为权限不足，它办不到。

它很快意识到这一点，向我寻求帮助，写了代码一步步教我去执行

我按着步骤执行完毕后，让它检查，并且我自己又看了任务管理器，确实已经搞定了，清除了内存泄漏，把这项用不到的服务关闭。

以后再也不用担心内存泄漏了，又省下2GB内存，可以多开好几个Claude Code了。

所以，我觉得Step 3.7 Flash的干活能力也是不错的。

5. GeoGebra专业动画长达一分钟的教学视频导入给Step 3.7理解学习，用HTML复刻视频动画。

GeoGebra是数学教育专业硕士专门开的一门课，需要专门去学习如何制作动画演示给学生进行教学的。

其实还是比较复杂的，我有个朋友经常为此苦恼，上课很可能听不懂，需要专门去B站教学视频一点点学习，然后一个个步骤跟着做，时间一长又忘记了，又要重学一遍。

然后我去下载了这个B站教学视频，导入给Step 3.7 Flash，看看能不能直接让它复刻一个。

这是B站GeoGebra软件的教学视频，长达一分钟，感觉能理解一分钟视频国产大模型都不多，我也不太确定Step 3.7能不能做得到。

1分钟的视频，内容还是很丰富了，我怕它有可能会理解出错，但是最后发现是我低估了它，它完全成功理解，并且能按我的要求写出每一个函数的动画过程。

我同意了这个计划，然后它就开始猛猛写代码了。

它一边写，居然一边自动在我的浏览器上打开了自己写的HTML，然后逐个按钮进行测试交互检查。

这里其实发生了一个小插曲，Step 3.7 Flash太快了我都来不及录屏它就搞定了，所以我只能让它再操作一遍，我说我要录屏。。

所以它就真的再操作一遍，再检查一遍给我看，逐个按钮点击切换，播放动画。

如下面录屏所示，左边是它操作交互的过程，右边是它的思考过程，一边思考一边操作。

我完全没有点击任何按钮，浏览器也都不是我打开的，是它自己一边写代码一边操作的。。

我也没想到它直接做出来了，而且是四个函数一起，一口气做出来的，虽然没和视频里100%一样，但是已经一口气搞定几乎90%了，有点东西。

关于价格

好多次，评论区都会问到相关模型、工具的价格，索性这次我就一并介绍了。

Step 3.7 Flash有个Step Plan，价格上算不得特别便宜，但是真的好耐用。

是按照每5小时的次数来限制的，跟Codex的订阅制有点像，我觉得按一定时间限制次数这种用起来是最爽的，完全不用管token消耗了多少。

而且是真的耐用。一开始我还怕便宜一点的套餐不够用，心有点大，直接上了Pro...

结果陆续跑了几天，连零头都没用到。。

这很适合用在Claude Code、Codex了，给Agent们当眼睛，关键是识别，输出都挺快的。

如果用量不大，可以直接用API额度：

「最后」

整体用下来，我感觉Step 3.7 Flash不算是那种特别强的视觉模型，毕竟参数量摆在那。

但是视觉理解能力强，代码能力也不错，推理能力也在线，速度非常快，也非常的耐用。

总的来说，在合适的一些场景，它算是性价比挺高的一款模型。

当然，你让它干一些非常复杂的活，肯定还是比不上用Codex+GPT-5.5。但是我用下来，在很多不那么复杂的场景其实是够用的，关键是速度快，让我这个用惯了Codex老爷车的人，一下子还有点不习惯。

前两天参加腾讯云的AI峰会，被采访的时候被问到了一个问题："你觉得今年的Agent跟去年的Agent有什么不一样"

我简单思考了一下，回答到："我觉得今年的Agent干活越来越稳了，跑任务所需的时间也更长了"

所以，我认为在Agent干活质量越来越稳之后，效率一定是Agent的下个阶段所要追求的重要指标。

在我看来，时间>金钱，用钱能买来时间，一定是划算的。

目前我觉得更好的方式是，强大的模型负责难题思考，快模型负责干活，这可能才是Agent的正确打开方式

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-08

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

2026-06-08

Anthropic 开源 Agent Skills 参考库，大模型定制化时代开启

2026-06-07

Karpathy LLM-Wiki Skill 已开源公开

2026-06-06

老黄刚夸完OpenClaw，Hermes反手把智能体搬进电脑桌面

2026-06-05

一周 3.3k Star：微软 SkillOpt 开源，Agent Skill技能也能训练了，简直太香了（文末附领取方式）

2026-06-05

DeepSeek+Codex：如何在消费级显卡上跑出满血编程能力

2026-06-05

OpenClaw刚发Windows版就爆了！下载量超Mac三倍，“无需企鹅装”暗藏AI智能体落地的万亿风口

2026-06-05

商汤SenseNova-Skills来了，全套办公技能：从凌乱数据到精美PPT直接交付

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

阿里开源龙虾组合来了：HiClaw + CoPaw，内存占用大幅降低，还能直接操作本地环境

2026-03-12

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw