免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


突发!字节开源 36B 模型Seed-OSS

发布日期:2025-08-21 03:11:21 浏览次数: 1515
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

字节开源36B大模型Seed-OSS,支持512K长上下文和动态推理预算控制,性能惊艳!

核心内容:
1. Seed-OSS模型36B参数规模与12T tokens训练数据
2. 支持512K长上下文和动态推理预算控制两大技术亮点
3. 采用GQA注意力机制等成熟架构设计,兼顾性能与效率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

刚刚,字节跳动向世界扔出了一枚重磅炸弹!

ByteDance Seed团队正式开源了Seed-OSS系列模型,这个仅用12T tokens训练的36B参数模型,在多个主流基准测试上的表现足以让所有人刮目相看。

更为重要的是,这次字节采用了Apache-2.0许可证,完全开放给社区使用。

不过,目前模型文件还在陆续上传中,从提交记录来看,1分钟前还在更新README和上传相关文件。

并非随意开个源

字节这次开源的模型不是像coze 那样简单糊一糊,堆点参数就放出来了,而是在几个关键能力上下了功夫。

灵活控制推理预算

这算是Seed-OSS的一大亮点,用户可以根据实际需求动态调整推理长度,这在实际应用中意味着更高的推理效率。

可以给模型设定512、1K、2K甚至16K的thinking budget,模型会在推理过程中定期触发自我反思,评估已消耗和剩余的预算。

响应示例如下:

<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Using the power rule, ... ...
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>

模型在推理任务上做了专门优化,同时保持了均衡的通用能力

Agent任务上的表现也较为抢眼,无论是工具使用还是问题解决,都达到了相当高的水准。

而值得一提的是,Seed-OSS原生支持512K长上下文,这在开源模型中并不多见。

要知道DeepSeek 最新发布的V3.1 也仍只支持128K 的上下文长度。

见:【通知】DeepSeek发布V3.1

架构经典而不保守

Seed-OSS采用了成熟的因果语言模型架构,配备RoPE、GQA注意力机制、RMSNorm和SwiGLU激活函数。

配置项
参数
参数量
36B
注意力机制
GQA
激活函数
SwiGLU
层数
64
QKV头数
80 / 8 / 8
头维度
128
隐藏层维度
5120
词汇表大小
155K
上下文长度
512K
RoPE基频
1e7

80个查询头配8个键值头的设计,在保证性能的同时有效控制了显存开销。

两个版本,各有千秋

字节这次还很贴心地发布了两个版本的基座模型。

带合成指令数据版本(w/ syn.)

在大多数基准测试上表现更好,这也是官方推荐的Seed-OSS-36B-Base.

同时,他们还发布了不含合成数据版本(w/o syn.),为研究社区提供了一个「纯净」的基础模型。

基准测试
Seed1.6-Base
Qwen3-30B-A3B-Base
Qwen2.5-32B-Base
Seed-OSS-36B-Base
(w/ syn.)
Seed-OSS-36B-Base-woSyn
(w/o syn.)
MMLU-Pro
70
59.8
58.5
65.1
60.4
MMLU
88.8
82.7
84
84.9
84.8
GSM8K
93.1
87
87.5
90.8
90.3
MATH
72.9
61.1
63.5
81.7
61.3
HumanEval
78
70.7
47.6
76.8
75.6
BBH
92.1
81.4
79.1
87.7
87.2
MBPP
83.6
78.8
77.8
80.6
74.6

可以看到,带合成数据版本在MATH上的提升尤其明显,从61.3跳到81.7,提升惊人。

Instruct版本

Seed-OSS-36B-Instruct的表现也极为强劲。

数学推理上,AIME24达到91.7分,AIME25也有84.7分。BeyondAIME这种超难题也能拿到65分。

编程能力同样出色,LiveCodeBench v6上达到67.4分,在开源模型中拔得头筹。

而更为强悍的则是Agent能力:Seed-OSS在TAU1-Retail任务上拿到70.4分,直接刷新了开源SOTA。SWE-Bench Verified在OpenHands框架下达到56分,仅次于Claude 等闭源模型(其实也很接近了)。

基准测试
Seed1.6-Thinking
OAI-OSS-20B
Qwen3-30B-Thinking
Qwen3-32B
Gemma3-27B
Seed-OSS-36B-Instruct
MMLU-Pro
86.6
76.2
81.9
81.8
67.5
82.7
AIME24
90.3
92.7
87.7
82.7
-
91.7
AIME25
86
90.3
81.3
73.3
-
84.7
LiveCodeBench v6
66.8
63.8
60.3
53.4
-
67.4
TAU1-Retail
63
54.8
58.7
40.9
-
70.4
SWE-Bench Verified
(OpenHands)
41.8
60.7
31
23.4
-
56
RULER (128K)
94.5
78.7
94.5
77.5
-
94.6

长上下文处理能力也算是相当扎实,RULER 128K测试达到94.6分,在开源模型中位居榜首。

推理预算

thinking_budget

上图展示了不同任务在不同thinking budget下的表现曲线。

简单任务如IFEval,模型的思维链较短,增加预算反而会带来波动。

但对于AIME和LiveCodeBench这种复杂任务,思维链更长,分数随着预算增加而稳步提升。

这种设计让用户可以根据任务难度灵活配置资源,简单问题快速回答,复杂问题深度思考

快速上手

安装依赖相当简单:

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss

基础推理代码:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")

messages = [
    {"role""user""content""How to make pasta?"},
]

tokenized_chat = tokenizer.apply_chat_template(
  messages, 
  tokenize=True
  add_generation_prompt=True
  return_tensors="pt"
  thinking_budget=512# 控制推理预算
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

字节还提供了完整的推理脚本,支持4-bit/8-bit量化:

# 8-bit量化
python3 generate.py --model_path /path/to/model --load_in_8bit True

#
 4-bit量化  
python3 generate.py --model_path /path/to/model --load_in_4bit True

vLLM部署也有完整支持,需要使用专门的Seed-OSS版本:

VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss

启动API服务器:

python3 -m vllm.entrypoints.openai.api_server \
    --host localhost \
    --port 4321 \
    --enable-auto-tool-choice \
    --tool-call-parser seed_oss \
    --trust-remote-code \
    --model ./Seed-OSS-36B-Instruct \
    --chat-template ./Seed-OSS-36B-Instruct/chat_template.jinja \
    --tensor-parallel-size 8 \
    --dtype bfloat16 \
    --served-model-name seed_oss

推荐的生成参数为:temperature=1.1,top_p=0.95,这个配置在多数任务上都能取得不错的效果。

GPT-OSS vs Seed-OSS 性能对比

月初,OpenAI 开源了 GPT-OSS 模型,包含两个版本:

  • GPT-OSS-120B:116.8B 参数(MoE架构,每个token激活5.1B参数)

  • GPT-OSS-20B:20.9B 参数(每个token激活3.6B参数)

架构方面,二者都采用MoE架构,但设计理念不同:

  • GPT-OSS-120B:128个专家,每次激活4个

  • GPT-OSS-20B:32个专家,每次激活4个

  • Seed-OSS-36B:采用GQA注意力机制,80/8/8的QKV头配置

我用AI 整理了二者的关键性能对比,如下:

基准测试
GPT-OSS-120B
GPT-OSS-20B
Seed-OSS-36B-Instruct
MMLU-Pro
~82
~76
82.7
AIME 2024
96.6
~90
91.7
AIME 2025
~92
~85
84.7
LiveCodeBench
~65
~60
67.4
SWE-Bench Verified
~55
~45
56
RULER (128K)
~78
-
94.6

相比这下,Seed-OSS 则说是对OpenAI 开源模型的碾压了:

  • 长上下文处理能力更强:RULER 128K测试达94.6分 vs GPT-OSS的78分

  • 编程能力略胜一筹:LiveCodeBench上67.4分超过GPT-OSS

  • Agent能力突出:TAU1-Retail达到70.4分(开源SOTA)

  • 原生512K上下文支持(GPT-OSS为128K)

  • 训练效率更高:仅用12T tokens训练

Seed-OSS仅用三分之一的参数量(36B vs 120B)就达到了与GPT-OSS-120B相当甚至更好的性能,这也算是字节用技术实力向外秀肌肉的时刻了。

OpenAI 最强对手

字节此次的开源,可算是颇具深意。

当大家都在追求更大参数、更长训练的时候,Seed-OSS用12T tokens训练出了能打的36B模型。

这也向外部证明了一件事:训练效率比训练规模更重要

更有意思的是两个基座模型的设计:带合成数据的版本性能更强,但「纯净版」给了研究者更多探索空间。

这样的选择权的提供,也体现了字节对开源社区的理解和尊重。

而当一众模型巨头们都在构建自己的护城河时,字节毅然选择加入开放阵营。

不得不说,字节选择在这时候开源Seed-OSS,时机选得很巧妙。

或许,拥有超强的模型能力,及全球傲视群雄的产品能力的字节——

才是OpenAI 最为担忧的最强对手。




[1]

Hugging Face: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base

[2]

GitHub: https://github.com/ByteDance-Seed/seed-oss

[3]

Seed官网: https://seed.bytedance.com/



👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

欢迎加入!

图片

也欢迎加群和5000+群友交流。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询