豆包 2.0 模型发布，全信息整理（全网最完整，另附 79 页 Model Card）

发布日期：2026-02-14 16:44:56 浏览次数： 8093

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

今天 Seed2.0 全系列正式发布
Seed2.0，也就是豆包大模型2.0（Doubao-Seed-2.0）

包括 Pro、Lite、Mini 三款通用 Agent 模型加一个 Code 模型，围绕 Agent 使用和大规模生产，做了系统性优化

先看数据（本文里所有表格，都是我做的，好不好看！！！）

先一次过完核心部份：

多模态，数学与视觉推理 19 项基准 12 项第一，视觉感知、文档理解、长上下文大部分基准 SOTA，EgoTempo 超过人类分数

LLM 科学能力，HealthBench 第一，SuperGPQA 超 GPT-5.2，整体与 Gemini 3 Pro、GPT-5.2 相当；在深度研究上也取得了不俗的成绩

代码，有明显进步，部分高难基准与国际领先模型仍有差距

已上线，豆包 App 选「专家」模式 / TRAE 选「Doubao-Seed-2.0-Code」，全系列 API 已上线火山引擎，价格较同级 GPT 和 Claude 便宜一个数量级

Model Card 也有，同时发布的还有一份 79 页的 Model Card，公众号后台回复「Seed2.0」，获取这份 Model Card

先说定价

Seed2.0 全系列的这四款模型，API 已上线火山引擎。以下为分段计费中 ≤32k 输入的价格，单位元/百万 tokens，这里我也做了个对比图：

Pro（doubao-seed-2-0-pro-260215）旗舰全能，面向复杂推理与长链路 Agent 任务
输入 3.2 / 输出 16 / 缓存命中 0.64

Lite（doubao-seed-2-0-lite-260215）均衡型，综合能力超 Seed1.8，兼顾质量与速度
输入 0.6 / 输出 3.6 / 缓存命中 0.12

Mini（doubao-seed-2-0-mini-260215）低时延高并发，256k 上下文，4 档思考长度
输入 0.2 / 输出 2 / 缓存命中 0.04

Code（doubao-seed-2-0-code-preview-260215）编程加强版，适配 Claude Code 等 IDE 工具链
输入 3.2 / 输出 16 / 缓存命中 0.64

四款模型均支持文字、图片、视频输入，文字输出

token 定价，比海外模型低了约一个数量级。Agent 跑一次 workflow 消耗的 token 是人类对话的几十倍

在现实世界的复杂任务中，大规模推理与长链路生成将消耗大量 token，这个成本变量会越来越重

火山引擎模型详情页：https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-0-pro

本次的优化

Seed 团队分析了通用模型在 MaaS 服务中的真实调用情况

Seed 通用模型 MaaS 服务在中国大陆的调用场景分布，数据来自「火山方舟协作奖励计划」

最高比例的需求是处理混杂图表、文档等非结构化信息的知识内容。企业端的典型模式：先让模型做「读得多、想得多」的任务，再进入复杂且专业的流程型工作

基于这个真实需求，Seed2.0 重点优化三个方向：

• 更稳健的视觉与多模态理解：复杂文档、表格、图形、视频内容的解析能力显著提升
• 更可靠的复杂指令执行：多约束、多步骤、长链路任务的理解与执行能力强化
• 更灵活的推理选择：Pro、Lite、Mini 三档加 Code 模型，覆盖不同场景

除了生产级需求，Seed2.0 还在推高模型智能上限。目前已经能从解决奥林匹克竞赛类问题迈向支持研究级推理，比如尝试探索埃尔德什级别的数学问题，也可以完成部分科学相关任务的编程工作

能解埃尔德什问题和能帮你整理一堆扫描版合同，是两种能力
Seed2.0 两个都在做

多模态理解：大部分基准 SOTA

数学与视觉推理

Seed2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等数学推理基准上达到业界最优水平。LogicVista、VisuLogic 等视觉解谜与逻辑推理基准上，较 Seed1.8 显著提升

标注 * 的数据引自公开技术报告

视觉感知

VLMsAreBiased、VLMsAreBlind、BabyVision 等基准中取得业界最高分。面对不同类型的视觉输入时仍能保持准确且可信的感知和判断能力

标注 * 的数据引自公开技术报告

文档理解与长上下文

模型面对的，往往是复杂版式混排的原始材料。相比 Seed1.8，处理非结构化信息的能力显著强化，ChartQAPro 与 OmniDocBench 1.5 达到顶尖水准

长上下文方面，DUDE、MMLongBench、MMLongBench-Doc 均取得业界最佳分数

标注 * 的数据引自公开技术报告

视频理解

时间序列与运动感知方面，TVBench、TempCompass、MotionBench 等关键测评处于领先位置

EgoTempo 超过人类分数（人类 63.2，Seed2.0 Pro 71.8），对「变化、动作、节奏」的捕捉更为稳定

长视频场景中，Seed2.0 在大部分评测上超越了其他顶尖模型，可以高效准确地处理小时级别的长视频。视频工具 VideoCut 进一步提高了长视频处理的时长范围和推理精度

流式实时视频方面同样表现优异，能完成实时视频流分析、环境感知、主动纠错与情感陪伴，可应用于健身、穿搭等场景

标注 * 的数据引自公开技术报告

LLM 与 Agent：真实长程任务执行能力提升

Seed 团队观察到一个典型失衡：模型已经可以顺利解决竞赛难题，但放在真实世界中，依然很难端到端地完成实际任务，比如一次性构建一个设计精良、功能完整的小程序

原因来自两点。真实世界任务跨越更长时间尺度、包含多个阶段，现有 LLM Agent 难以自主构建高效工作流。真实世界知识具有很强的领域壁垒且呈长尾分布，各行业的经验不在训练语料的高频区

长尾领域知识

Seed2.0 通过系统性加强长尾领域知识来应对

SuperGPQA 超过 GPT-5.2，HealthBench 第一名，科学领域整体成绩与 Gemini 3 Pro 和 GPT-5.2 相当。FrontierSci 等 STEM 基准表现突出，部分场景得分超过 Gemini 3 Pro

指令遵循

Seed2.0 保持较强的一致性与可控性，为 Agent 模型在长链路、多步骤任务中严格按约束条件执行奠定了基础

深度研究

Seed2.0 在长链路任务中表现突出，尤其擅长连续完成「找资料、做归纳、写结论」这类连续工作流

三项深度研究评测，Pro 和 Lite 都取得了不俗的成绩

真实世界任务

在具备直接经济价值的现实任务评测中，Seed2.0 在客服问答、信息抽取、意图识别、中小学阶段问题解答等高频场景上表现稳定。GDPVal-Diamond、XPert Bench 等复杂专业任务基准上同样取得有竞争力的结果

科学发现

FrontierSci-research 等前沿科研基准上表现强劲，AInstein Bench 领先，体现出在科学发现场景中较强的假设驱动式推理能力

从研究想法到实验方案

Seed2.0 还能把「研究想法」推进到「形成可落地的实验方案」

以高尔基体蛋白分析为例，模型把基因工程、小鼠模型构建、亚细胞分离与多组学分析串成一条完整流程，细化到关键环节怎么做、用什么做对照排除污染、用哪些指标评估纯度

相关领域专家的反馈：方案在跨学科的实验细节与步骤化表达上超出预期，能产出结构清晰、科学上相对可靠、具有可执行性的实验草案

代码：有进步，有差距

端到端整体代码生成、上下文学习方面取得了明显进步

部分高难基准上，与国际领先模型相比仍有提升空间

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-01

AI 的向量空间里藏着心理学，这是一场嵌入模型的情绪对决

2026-07-01

Claude Sonnet 5 来了：Opus 级智能，Sonnet 级价格

2026-07-01

Anthropic在Claude Code植入间谍检测你是否来自中国

2026-06-30

Context 即 Agent：下一场 AI 产品战争，是上下文之争

2026-06-30

解析Agent Loop（智能体循环）的三层分级体系

2026-06-30

Cursor、OpenClaw 同时出手，“口袋编程”时代来了：程序员只用“动嘴”！

2026-06-30

从文本到多模态：大模型非结构化数据加工与质量控制实践

2026-06-30

从Anthropic的B端战略，给迷茫中的扣子一些建议

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

大家都在问

微信AI，能避开豆包手机的窘境吗？

2026-06-30

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw