我要投稿

突发！字节开源 36B 模型Seed-OSS

发布日期：2025-08-21 03:11:21 浏览次数： 3086

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

刚刚，字节跳动向世界扔出了一枚重磅炸弹！

ByteDance Seed团队正式开源了Seed-OSS系列模型，这个仅用12T tokens训练的36B参数模型，在多个主流基准测试上的表现足以让所有人刮目相看。

更为重要的是，这次字节采用了Apache-2.0许可证，完全开放给社区使用。

不过，目前模型文件还在陆续上传中，从提交记录来看，1分钟前还在更新README和上传相关文件。

并非随意开个源

字节这次开源的模型不是像coze 那样简单糊一糊，堆点参数就放出来了，而是在几个关键能力上下了功夫。

灵活控制推理预算

这算是Seed-OSS的一大亮点，用户可以根据实际需求动态调整推理长度，这在实际应用中意味着更高的推理效率。

可以给模型设定512、1K、2K甚至16K的thinking budget，模型会在推理过程中定期触发自我反思，评估已消耗和剩余的预算。

响应示例如下：

<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Using the power rule, ... ...
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>

模型在推理任务上做了专门优化，同时保持了均衡的通用能力。

在Agent任务上的表现也较为抢眼，无论是工具使用还是问题解决，都达到了相当高的水准。

而值得一提的是，Seed-OSS原生支持512K长上下文，这在开源模型中并不多见。

要知道DeepSeek 最新发布的V3.1 也仍只支持128K 的上下文长度。

见：【通知】DeepSeek发布V3.1

架构经典而不保守

Seed-OSS采用了成熟的因果语言模型架构，配备RoPE、GQA注意力机制、RMSNorm和SwiGLU激活函数。

配置项	参数
参数量	36B
注意力机制	GQA
激活函数	SwiGLU
层数	64
QKV头数	80 / 8 / 8
头维度	128
隐藏层维度	5120
词汇表大小	155K
上下文长度	512K
RoPE基频	1e7

80个查询头配8个键值头的设计，在保证性能的同时有效控制了显存开销。

两个版本，各有千秋

字节这次还很贴心地发布了两个版本的基座模型。

带合成指令数据版本（w/ syn.）

在大多数基准测试上表现更好，这也是官方推荐的Seed-OSS-36B-Base.

同时，他们还发布了不含合成数据版本（w/o syn.），为研究社区提供了一个「纯净」的基础模型。

基准测试	Seed1.6-Base	Qwen3-30B-A3B-Base	Qwen2.5-32B-Base	Seed-OSS-36B-Base (w/ syn.)	Seed-OSS-36B-Base-woSyn (w/o syn.)
MMLU-Pro	70	59.8	58.5	65.1	60.4
MMLU	88.8	82.7	84	84.9	84.8
GSM8K	93.1	87	87.5	90.8	90.3
MATH	72.9	61.1	63.5	81.7	61.3
HumanEval	78	70.7	47.6	76.8	75.6
BBH	92.1	81.4	79.1	87.7	87.2
MBPP	83.6	78.8	77.8	80.6	74.6

可以看到，带合成数据版本在MATH上的提升尤其明显，从61.3跳到81.7，提升惊人。

Instruct版本

Seed-OSS-36B-Instruct的表现也极为强劲。

在数学推理上，AIME24达到91.7分，AIME25也有84.7分。BeyondAIME这种超难题也能拿到65分。

编程能力同样出色，LiveCodeBench v6上达到67.4分，在开源模型中拔得头筹。

而更为强悍的则是Agent能力：Seed-OSS在TAU1-Retail任务上拿到70.4分，直接刷新了开源SOTA。SWE-Bench Verified在OpenHands框架下达到56分，仅次于Claude 等闭源模型（其实也很接近了）。

基准测试	Seed1.6-Thinking	OAI-OSS-20B	Qwen3-30B-Thinking	Qwen3-32B	Gemma3-27B	Seed-OSS-36B-Instruct
MMLU-Pro	86.6	76.2	81.9	81.8	67.5	82.7
AIME24	90.3	92.7	87.7	82.7	-	91.7
AIME25	86	90.3	81.3	73.3	-	84.7
LiveCodeBench v6	66.8	63.8	60.3	53.4	-	67.4
TAU1-Retail	63	54.8	58.7	40.9	-	70.4
SWE-Bench Verified (OpenHands)	41.8	60.7	31	23.4	-	56
RULER (128K)	94.5	78.7	94.5	77.5	-	94.6

长上下文处理能力也算是相当扎实，RULER 128K测试达到94.6分，在开源模型中位居榜首。

推理预算

上图展示了不同任务在不同thinking budget下的表现曲线。

简单任务如IFEval，模型的思维链较短，增加预算反而会带来波动。

但对于AIME和LiveCodeBench这种复杂任务，思维链更长，分数随着预算增加而稳步提升。

这种设计让用户可以根据任务难度灵活配置资源，简单问题快速回答，复杂问题深度思考。

快速上手

安装依赖相当简单：

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss

基础推理代码：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")

messages = [
    {"role": "user", "content": "How to make pasta?"},
]

tokenized_chat = tokenizer.apply_chat_template(
  messages, 
  tokenize=True, 
  add_generation_prompt=True, 
  return_tensors="pt", 
  thinking_budget=512# 控制推理预算
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

字节还提供了完整的推理脚本，支持4-bit/8-bit量化：

# 8-bit量化
python3 generate.py --model_path /path/to/model --load_in_8bit True

# 4-bit量化  
python3 generate.py --model_path /path/to/model --load_in_4bit True

vLLM部署也有完整支持，需要使用专门的Seed-OSS版本：

VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss

启动API服务器：

python3 -m vllm.entrypoints.openai.api_server \
    --host localhost \
    --port 4321 \
    --enable-auto-tool-choice \
    --tool-call-parser seed_oss \
    --trust-remote-code \
    --model ./Seed-OSS-36B-Instruct \
    --chat-template ./Seed-OSS-36B-Instruct/chat_template.jinja \
    --tensor-parallel-size 8 \
    --dtype bfloat16 \
    --served-model-name seed_oss

推荐的生成参数为：temperature=1.1，top_p=0.95，这个配置在多数任务上都能取得不错的效果。

GPT-OSS vs Seed-OSS 性能对比

月初，OpenAI 开源了 GPT-OSS 模型，包含两个版本：

GPT-OSS-120B：116.8B 参数（MoE架构，每个token激活5.1B参数）
GPT-OSS-20B：20.9B 参数（每个token激活3.6B参数）

架构方面，二者都采用MoE架构，但设计理念不同：

GPT-OSS-120B：128个专家，每次激活4个
GPT-OSS-20B：32个专家，每次激活4个
Seed-OSS-36B：采用GQA注意力机制，80/8/8的QKV头配置

我用AI 整理了二者的关键性能对比，如下：

基准测试	GPT-OSS-120B	GPT-OSS-20B	Seed-OSS-36B-Instruct
MMLU-Pro	~82	~76	82.7
AIME 2024	96.6	~90	91.7
AIME 2025	~92	~85	84.7
LiveCodeBench	~65	~60	67.4
SWE-Bench Verified	~55	~45	56
RULER (128K)	~78	-	94.6