我要投稿

Step 3.7 Flash：为 Agent 而生的高频引擎

发布日期：2026-06-02 14:07:28 浏览次数： 1513

作者：MacTalk

微信搜一搜，关注“MacTalk”

周末打开我常用的模型提供商的控制面板，发现阶跃星辰最新发布的 Step 3.7 Flash 已经上线了，赶紧配置上试试。早就听说这款模型要上：新一代高效率多模态 Flash 模型，主打快速、长上下文、工具调用和多模态工作流，面向 Agent 场景，推理速度极快，最高 400 tokens/s。

用 CC Switch 打开 Claude Code 的配置文件，填好 Step 3.7 Flash 的相关信息，保存退出，然后重新打开 Claude Code，就可以体验这款新模型了：

最近我想做个小组件，叫 Agent Loop Analyzer，分析一个 Agent 在规划、执行任务过程中的耗时和成本。还没开始动手，正好拿 Step 3.7 Flash 试试。

我的总体目标是做一个 “Agent Loop Analyzer” 小工具：让 Coding Agent 从零生成一个 Vite + React + TypeScript 单页应用，用来估算一个 Agent 任务在规划、搜索、工具调用、代码生成、验证几个阶段的耗时和成本，并用图表展示完整结果。

最终我给到 Agent 的 Prompt 是这样：

从零开始创建一个 Vite + React + TypeScript 单页应用，名称为 Agent Loop Analyzer。
功能要求：1. 左侧配置 Agent 任务的五个阶段：规划、搜索、工具调用、代码生成、验证。2. 每个阶段可输入调用次数、平均输入 tokens、平均输出 tokens、预估延迟。 3. 右侧实时展示总 tokens、总耗时、估算成本和阶段占比。 4. 用简单图表展示每个阶段的耗时占比。 5. 提供一组默认示例数据。 6. 支持导入和导出 JSON 配置。 7. 生成 README，说明如何启动、如何使用、核心设计取舍。8. 完成后运行构建检查，并汇报是否通过。 约束： - 使用 React + TypeScript。- 样式使用普通 CSS，不引入复杂 UI 库。- 优先保证第一版可运行、结构清晰、代码可维护。
记录四个结果就够了：模型版本、推理强度、首次生成是否能跑通、人工修改了几处。这个 Demo 能同时测 Coding、Agent loop、工具调用稳定性和 first-pass 完成度。

任务给到 Step 3.7 Flash，CC 在模型的加持下迅速开始干活，做规划、搭建骨架，然后开始编写代码。

大概几分钟的功夫，我就得到了一个逻辑完整的 demo 页面：

这是第一步，然后我开始和模型分析 Claude Code 的数据格式，最终希望得到实际的 Agent 执行数据：

经过几轮交互，我最终拿到了最近一轮 Agent 的实时分析，还增加了自定义单价的功能：

很快完成了这个小工具，我感觉 Step 3.7 Flash 还是给我了一些预期之外的惊喜。推理速度快，犯错少，设计在线，价格便宜量又足。如果让 Opus 4.8 来搞这事，估计五小时额度都能给你干得差不多了。

个人用模型，主要看智能和速度，但是，如果你把一个模型接入公司的生产系统，尤其是这个系统的用户还挺多——toB 几千几万，toC 百万千万——那就要更多考虑效率和成本的因素。

一个生产级任务，往往要经历规划、搜索、工具调用、代码生成、多模态理解、结果验证。模型在某个节点慢一下，整条链路都会放大这种慢；Token 贵一点，高频调用放大这种贵；出错了，Agent 就得返工。

我看 Step 3.7 Flash 除了聪明和快，主打的就是“Agent 效率”。

Step 3.7 Flash 的定位就是一款面向生产级 Agent 的高效率 Flash 模型，主要场景是 Agent、Coding、Search 与多模态工作流等。它延续了 196B 总参数、约 11B 激活参数的架构设计，最高生成速度可达 400 TPS，并重点优化了工具调用稳定性、智能体能力和代码能力。开源，已经在 GitHub 和 Hugging Face 上开放，支持本地部署。

我在这里看到的信号是：在 Agent 场景突飞猛进的情况下，Flash 模型正在从旗舰模型的轻量替代，变成 Agent 工作流里的高频发动机。

之前很多使用模型的场景都是一次输入，一次输出。写一段文案、总结一篇文章、回答一个问题，慢一点也能接受。Agent 场景完全不同。它要自己分解任务，查资料，读文件，改代码，调用工具，再根据结果继续下一步。

在这种工作流里，速度、成本和稳定性就成了主角。一次调用省下来的几秒钟，放到十几轮调用里，用户会感到真快。一次调用便宜一点，放到上百个 Agent 任务里，用户会觉得划算。

原生多模态是 Step 3.7 Flash 的另一个重点。

Step 3.7 Flash 原生支持图像和视频理解。用户在 Agent 框架中无需借助视觉 MCP 或额外视觉模型来识别图像和视频，直接把文件丢给它就行了，比如我把之前一个介绍 CC Agent view 的视频丢给它讲解，很快就有结果：

这对生产级的 Agent 很重要。现实任务里的信息很少干干净净地躺在文本里。它可能是一张 UI 截图，一段操作录屏，一张白板照片，一份带图表的文档。

对非原生多模态的模型，咱们需要接额外的视觉和图片工具，然后再把结果给到大语言模型，中间多一层编排，就多一层误差和维护成本。

原生多模态把这件事简化了。Agent 可以把截图、文档、视频、网页和代码放进同一条推理过程，减少了大量的胶水工程。

Search 也是这个逻辑。

搜索在 Step 3.7 Flash 里成了 Agent 思考与行动的一部分。Step 这次对搜索能力做了重点优化，让模型在需要查资料、比对信息、验证结论的时候，能更快地拉取上下文、准确地读懂结果、更主动地把新信息融入后续决策。

对开发者来说，这意味着平时工作里的市场调研、竞品分析、资料整理、代码库升级，都可以在模型里实现，交给一个会搜索的 Agent 去做就好了。它知道什么时候该查，查到什么算足够，什么时候该停下来核对，再基于最新的信息把结果返回给你。

我试了一下 Step 3.7 Flash 和墨问 cli 配合，搜索 Vibe Coding 和 Agent 工具，效果很不错：

Step 3.7 Flash 这次还特别针对 Hermes Agent、OpenClaw、Codex、Claude Code、Kilo Code、OpenCode、Cline 等主流 Coding 与 Agent 框架做了适配优化，同时提供 Chat Completion API 和 Messages API 两种接口形态。

接入成本非常低，有兴趣的同学可以试试，基本上可以做到 Token 自由。

另外，不同权重的 Step 3.7 Flash 都已经开源了，所以这是一款开放可以在生产环境部署的模型，对企业级 Agent 来说，很多场景涉及内部代码、客户数据、业务流程和权限系统，模型能力之外，部署方式和可控性同样关键。

说完这款模型，我觉得它最适合的就是高频、多步骤、工具密集的 Agent 场景。比如 Coding Agent、搜索增强工作流、多模态文档处理、UI 截图理解、简单 GUI Agent 操作等等。至于 3D、复杂物理仿真、极长的上下文任务，并非 Flash 模型所长。

在我看来，Step 3.7 Flash 完成了 Flash 类模型的一次角色变化，从以前的快和便宜，走向 Agent 场景。在 Agent 时代，模型竞争不会只看峰值的智能，还会关注每一次循环里的速度、成本、稳定性和可控性。

能进入 Agent 工作流的模型，才会真正进入生产力。