微信扫码
添加专属顾问
我要投稿
10B参数击败200B性能!阶跃星辰开源视觉语言模型Step3-VL-10B,重新定义小模型的智能上限。 核心内容: 1. 10B参数模型在多项基准测试中超越10-20倍规模大模型 2. 极致视觉感知与深层逻辑推理能力的突破性实现 3. 端侧设备部署潜力与开源生态建设
性能超越 20 倍大模型,阶跃星辰多模态“小核弹” Step3-VL-10B 开源!
仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平,并且解决了参数量小和智能水平高难以兼优的行业难题。
我们在多项关键评测中观察到,Step3-VL-10B 媲美甚至超越规模大 10-20 倍开源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。
基于这样一个小而强底座,原本只能在云端运行的复杂多模态推理(如 GUI 操作、复杂文档解析、高精度计数)能够下沉到手机、电脑甚至工业嵌入式设备中。
Base 和 Thinking 模型同时开源,欢迎下载体验!
项目主页:https://stepfun-ai.github.io/Step3-VL-10B/
论文链接:https://arxiv.org/abs/2601.09668
HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
Step3-VL-10B 具备三大核心亮点:
极致视觉感知标杆:在同参数量级中展现出顶尖的识别与感知精度。通过引入 PaCoRe(并行协调推理) 机制,模型在复杂计数、高精度 OCR 及空间拓扑理解等高难度任务上的可靠性实现了质的飞跃。
深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B 在 10B 规模上实现了跨任务推理能力的阶跃。无论是竞赛级数学难题、真实编程环境还是视觉逻辑谜题,模型均能通过严密的多步思维链推导出最终答案。
强大端侧 Agent 交互:基于海量 GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面,成为端侧 Agent 的核心引擎。
Step3-VL-10B 提供 SeRe(顺序推理)和 PaCoRe(并行协调推理)两种范式,在STEM 推理、识别、OCR & 文档、GUI Grounding、空间理解、代码等核心维度,都取得了千亿级别模型的优秀分数,PaCoRe范式表现更优。
1、STEM /多模态推理
STEM(科学、技术、工程、数学)与多模态推理(Multimodal Reasoning)是衡量模型“深度智能”的核心维度。
Step3-VL-10B 在 MMMU、MathVision 中超越 GLM-4.6V、Qwen3-VL 等模型。
2、竞赛数学
在数学维度上,Step3-VL-10B 表现尤其突出。在 AIME 25/24 等数学竞赛测试题上以几乎满分的成绩达到世界第一梯队水平。
这意味着 Step3-VL-10B 已具备了顶尖人类数学竞赛选手的思维能力,在逻辑严密性上甚至优于许多千亿级模型。
3、2D/3D空间推理
Step3-VL-10B 在多个空间推理基准中都表现出优异水平,尤其是在需要精细感知与复杂逻辑结合的 BLINK、CVBench、OmniSpatial 及 ViewSpatial 等测试中,其性能显著超越了同规模模型。
4、代码
在真实、动态编程环境下,Step3-VL-10B 超越诸多世界一流多模态模型。
在真实使用场景中,Step3-VL-10B 的多模推理能力覆盖 GUI 感知、视觉识别和推理等。
案例一:莫尔斯推理
▲上下滑动查看详细内容
案例二:GUI 感知
▲上下滑动查看详细内容
案例三:图推理
▲上下滑动查看详细内容
能够达到以上性能,得益于 Step3-VL-10B 在三方面独特设计:
1.全参数端到端多模态联合预训练:摒弃了传统分阶段冻结模块的训练范式,直接在 1.2T 高质量多模态数据集上进行全参数联合训练。这种方式实现了视觉特征与语言逻辑在底层语义空间的深度对齐,为模型构建了极致的感知能力与复杂的跨模态推理基石。
2.大规模多模态强化学习(RL)演进:率先将大规模强化学习引入多模态领域,历经超过 1,400 次迭代优化。模型在视觉识别、数理逻辑推理及通用对话等维度的能力均实现质的飞跃,且实验数据表明,模型性能仍处于上升通道,尚未触及饱和边界。
3.并行协调推理机制(PaCoRe):创新性地引入 PaCoRe 机制,支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,该机制显著提升了模型在竞赛级数学、复杂 OCR 识别、精准物体计数及空间拓扑推理中的准确度。
得益于“三位一体”架构,Step3-VL-10B 证明智能水平并不完全取决于参数规模。
依托更高质量、更有针对性的数据构建,以及系统化的后训练与强化学习策略,10B 级模型同样有能力在多项基准测试中与 10–20 倍体量的模型正面竞争,甚至实现反超。
这也意味着:世界一流的多模态能力有望以更低成本、更少算力获得;与此同时,过去主要集中在云端超级智能将逐步向端侧下沉,推动终端走向“主动理解与可执行交互”,从而重塑人机交互体验。
目前,我们已开源 Step3-VL-10B(包括 Base 模型和 Thinking 模型),欢迎大家与我们讨论交流,也欢迎开源社区来微调我们的模型,共同推动小模型实现智能跃迁!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-21
8B模型媲美Claude?DeepResearch终于本地化了:拖入PDF,自动生成万字研报
2026-01-21
刷新 Google AlphaEvolve 进化结果,百度开源 Agent 开发框架 LoongFlow
2026-01-21
“DeepSeek 时刻” 一周年
2026-01-21
速递 | DeepSeek突然扔出MODEL1,这到底是V4还是R2?
2026-01-21
DeepSeek-R2要来了?
2026-01-21
刚刚,DeepSeek新模型MODEL1曝光,3处架构升级!
2026-01-21
开源+AI双 buff!Paper2Slides:让论文转幻灯片,从 “耗时半天” 到 “1 分钟搞定”
2026-01-21
MiroThinker v1.5:开源搜索智能体的革命性突破,重新定义AI交互
2025-11-19
2025-10-27
2025-10-27
2025-12-22
2025-12-10
2025-11-17
2025-11-07
2025-10-29
2025-10-24
2025-12-23
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24
2025-12-22
2025-11-12