我要投稿

10B击败200B！阶跃星辰10B视觉语言SOTA模型开源

发布日期：2026-01-21 20:37:52 浏览次数： 1983

作者：阶跃星辰

微信搜一搜，关注“阶跃星辰”

性能超越 20 倍大模型，阶跃星辰多模态“小核弹” Step3-VL-10B 开源！

仅用 10B 参数量，Step3-VL-10B 在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平，并且解决了参数量小和智能水平高难以兼优的行业难题。

我们在多项关键评测中观察到，Step3-VL-10B 媲美甚至超越规模大 10-20 倍开源模型（如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B）以及顶级闭源旗舰模型（如 Gemini 2.5 Pro、Seed-1.5-VL）。

基于这样一个小而强底座，原本只能在云端运行的复杂多模态推理（如 GUI 操作、复杂文档解析、高精度计数）能够下沉到手机、电脑甚至工业嵌入式设备中。

Base 和 Thinking 模型同时开源，欢迎下载体验！

项目主页：https://stepfun-ai.github.io/Step3-VL-10B/
论文链接：https://arxiv.org/abs/2601.09668
HuggingFace：https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope：https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

10B参数，200B性能

Step3-VL-10B 具备三大核心亮点：

极致视觉感知标杆：在同参数量级中展现出顶尖的识别与感知精度。通过引入 PaCoRe（并行协调推理） 机制，模型在复杂计数、高精度 OCR 及空间拓扑理解等高难度任务上的可靠性实现了质的飞跃。
深层逻辑推演与长程推理：得益于规模化强化学习（RL）的持续迭代，Step3-VL-10B 在 10B 规模上实现了跨任务推理能力的阶跃。无论是竞赛级数学难题、真实编程环境还是视觉逻辑谜题，模型均能通过严密的多步思维链推导出最终答案。
强大端侧 Agent 交互：基于海量 GUI（图形用户界面）专用预训练数据，模型能够精准识别并操作复杂界面，成为端侧 Agent 的核心引擎。

Step3-VL-10B 提供 SeRe（顺序推理）和 PaCoRe（并行协调推理）两种范式，在STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码等核心维度，都取得了千亿级别模型的优秀分数，PaCoRe范式表现更优。

1、STEM /多模态推理

STEM（科学、技术、工程、数学）与多模态推理（Multimodal Reasoning）是衡量模型“深度智能”的核心维度。

Step3-VL-10B 在 MMMU、MathVision 中超越 GLM-4.6V、Qwen3-VL 等模型。

2、竞赛数学

在数学维度上，Step3-VL-10B 表现尤其突出。在 AIME 25/24 等数学竞赛测试题上以几乎满分的成绩达到世界第一梯队水平。

这意味着 Step3-VL-10B 已具备了顶尖人类数学竞赛选手的思维能力，在逻辑严密性上甚至优于许多千亿级模型。

3、2D/3D空间推理

Step3-VL-10B 在多个空间推理基准中都表现出优异水平，尤其是在需要精细感知与复杂逻辑结合的 BLINK、CVBench、OmniSpatial 及 ViewSpatial 等测试中，其性能显著超越了同规模模型。

4、代码

在真实、动态编程环境下，Step3-VL-10B 超越诸多世界一流多模态模型。

真实案例

在真实使用场景中，Step3-VL-10B 的多模推理能力覆盖 GUI 感知、视觉识别和推理等。

案例一：莫尔斯推理

▲上下滑动查看详细内容

案例二：GUI 感知

▲上下滑动查看详细内容

案例三：图推理

▲上下滑动查看详细内容

为什么能做到？三项关键设计

能够达到以上性能，得益于 Step3-VL-10B 在三方面独特设计：

1.全参数端到端多模态联合预训练：摒弃了传统分阶段冻结模块的训练范式，直接在 1.2T 高质量多模态数据集上进行全参数联合训练。这种方式实现了视觉特征与语言逻辑在底层语义空间的深度对齐，为模型构建了极致的感知能力与复杂的跨模态推理基石。

2.大规模多模态强化学习（RL）演进：率先将大规模强化学习引入多模态领域，历经超过 1,400 次迭代优化。模型在视觉识别、数理逻辑推理及通用对话等维度的能力均实现质的飞跃，且实验数据表明，模型性能仍处于上升通道，尚未触及饱和边界。

3.并行协调推理机制（PaCoRe）：创新性地引入 PaCoRe 机制，支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合，该机制显著提升了模型在竞赛级数学、复杂 OCR 识别、精准物体计数及空间拓扑推理中的准确度。

得益于“三位一体”架构，Step3-VL-10B 证明智能水平并不完全取决于参数规模。

依托更高质量、更有针对性的数据构建，以及系统化的后训练与强化学习策略，10B 级模型同样有能力在多项基准测试中与 10–20 倍体量的模型正面竞争，甚至实现反超。

这也意味着：世界一流的多模态能力有望以更低成本、更少算力获得；与此同时，过去主要集中在云端超级智能将逐步向端侧下沉，推动终端走向“主动理解与可执行交互”，从而重塑人机交互体验。

目前，我们已开源 Step3-VL-10B（包括 Base 模型和 Thinking 模型），

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-06

老黄刚夸完OpenClaw，Hermes反手把智能体搬进电脑桌面_tag2

2026-06-05

一周 3.3k Star：微软 SkillOpt 开源，Agent Skill技能也能训练了，简直太香了（文末附领取方式）_tag2

2026-06-05

DeepSeek+Codex：如何在消费级显卡上跑出满血编程能力_tag2

2026-06-05

OpenClaw刚发Windows版就爆了！下载量超Mac三倍，“无需企鹅装”暗藏AI智能体落地的万亿风口_tag2

2026-06-05

商汤SenseNova-Skills来了，全套办公技能：从凌乱数据到精美PPT直接交付_tag2

2026-06-04

腾讯开源了 Agent Memory，让 AI 真正记住你。_tag2

2026-06-04

AionUi 统一接管 OpenClaw 与 Hermes Agent

2026-06-04

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

阿里开源龙虾组合来了：HiClaw + CoPaw，内存占用大幅降低，还能直接操作本地环境

2026-03-12

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw