微信扫码
添加专属顾问
我要投稿
字节开源36B大模型Seed-OSS,支持512K长上下文和动态推理预算控制,性能惊艳!核心内容: 1. Seed-OSS模型36B参数规模与12T tokens训练数据 2. 支持512K长上下文和动态推理预算控制两大技术亮点 3. 采用GQA注意力机制等成熟架构设计,兼顾性能与效率
刚刚,字节跳动向世界扔出了一枚重磅炸弹!
ByteDance Seed团队正式开源了Seed-OSS系列模型,这个仅用12T tokens训练的36B参数模型,在多个主流基准测试上的表现足以让所有人刮目相看。
更为重要的是,这次字节采用了Apache-2.0许可证,完全开放给社区使用。
不过,目前模型文件还在陆续上传中,从提交记录来看,1分钟前还在更新README和上传相关文件。
字节这次开源的模型不是像coze 那样简单糊一糊,堆点参数就放出来了,而是在几个关键能力上下了功夫。
灵活控制推理预算
这算是Seed-OSS的一大亮点,用户可以根据实际需求动态调整推理长度,这在实际应用中意味着更高的推理效率。
可以给模型设定512、1K、2K甚至16K的thinking budget,模型会在推理过程中定期触发自我反思,评估已消耗和剩余的预算。
响应示例如下:
<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Using the power rule, ... ...
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>
模型在推理任务上做了专门优化,同时保持了均衡的通用能力。
在Agent任务上的表现也较为抢眼,无论是工具使用还是问题解决,都达到了相当高的水准。
而值得一提的是,Seed-OSS原生支持512K长上下文,这在开源模型中并不多见。
要知道DeepSeek 最新发布的V3.1 也仍只支持128K 的上下文长度。
Seed-OSS采用了成熟的因果语言模型架构,配备RoPE、GQA注意力机制、RMSNorm和SwiGLU激活函数。
参数量 | |
注意力机制 | |
激活函数 | |
层数 | |
QKV头数 | |
头维度 | |
隐藏层维度 | |
词汇表大小 | |
上下文长度 | |
RoPE基频 |
80个查询头配8个键值头的设计,在保证性能的同时有效控制了显存开销。
字节这次还很贴心地发布了两个版本的基座模型。
带合成指令数据版本(w/ syn.)
在大多数基准测试上表现更好,这也是官方推荐的Seed-OSS-36B-Base.
同时,他们还发布了不含合成数据版本(w/o syn.),为研究社区提供了一个「纯净」的基础模型。
(w/ syn.) |
(w/o syn.) |
||||
---|---|---|---|---|---|
65.1 | |||||
84.9 | |||||
90.8 | |||||
81.7 | |||||
76.8 | |||||
87.7 | |||||
80.6 |
可以看到,带合成数据版本在MATH上的提升尤其明显,从61.3跳到81.7,提升惊人。
Seed-OSS-36B-Instruct的表现也极为强劲。
在数学推理上,AIME24达到91.7分,AIME25也有84.7分。BeyondAIME这种超难题也能拿到65分。
编程能力同样出色,LiveCodeBench v6上达到67.4分,在开源模型中拔得头筹。
而更为强悍的则是Agent能力:Seed-OSS在TAU1-Retail任务上拿到70.4分,直接刷新了开源SOTA。SWE-Bench Verified在OpenHands框架下达到56分,仅次于Claude 等闭源模型(其实也很接近了)。
82.7 | ||||||
92.7 | ||||||
90.3 | ||||||
67.4 | ||||||
70.4 | ||||||
(OpenHands) |
60.7 | |||||
94.6 |
长上下文处理能力也算是相当扎实,RULER 128K测试达到94.6分,在开源模型中位居榜首。
上图展示了不同任务在不同thinking budget下的表现曲线。
简单任务如IFEval,模型的思维链较短,增加预算反而会带来波动。
但对于AIME和LiveCodeBench这种复杂任务,思维链更长,分数随着预算增加而稳步提升。
这种设计让用户可以根据任务难度灵活配置资源,简单问题快速回答,复杂问题深度思考。
安装依赖相当简单:
pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss
基础推理代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")
messages = [
{"role": "user", "content": "How to make pasta?"},
]
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
thinking_budget=512# 控制推理预算
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
字节还提供了完整的推理脚本,支持4-bit/8-bit量化:
# 8-bit量化
python3 generate.py --model_path /path/to/model --load_in_8bit True
# 4-bit量化
python3 generate.py --model_path /path/to/model --load_in_4bit True
vLLM部署也有完整支持,需要使用专门的Seed-OSS版本:
VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss
启动API服务器:
python3 -m vllm.entrypoints.openai.api_server \
--host localhost \
--port 4321 \
--enable-auto-tool-choice \
--tool-call-parser seed_oss \
--trust-remote-code \
--model ./Seed-OSS-36B-Instruct \
--chat-template ./Seed-OSS-36B-Instruct/chat_template.jinja \
--tensor-parallel-size 8 \
--dtype bfloat16 \
--served-model-name seed_oss
推荐的生成参数为:temperature=1.1,top_p=0.95,这个配置在多数任务上都能取得不错的效果。
月初,OpenAI 开源了 GPT-OSS 模型,包含两个版本:
GPT-OSS-120B:116.8B 参数(MoE架构,每个token激活5.1B参数)
GPT-OSS-20B:20.9B 参数(每个token激活3.6B参数)
架构方面,二者都采用MoE架构,但设计理念不同:
GPT-OSS-120B:128个专家,每次激活4个
GPT-OSS-20B:32个专家,每次激活4个
Seed-OSS-36B:采用GQA注意力机制,80/8/8的QKV头配置
我用AI 整理了二者的关键性能对比,如下:
MMLU-Pro | 82.7 | ||
AIME 2024 | |||
AIME 2025 | |||
LiveCodeBench | 67.4 | ||
SWE-Bench Verified | |||
RULER (128K) | 94.6 |
相比这下,Seed-OSS 则说是对OpenAI 开源模型的碾压了:
长上下文处理能力更强:RULER 128K测试达94.6分 vs GPT-OSS的78分
编程能力略胜一筹:LiveCodeBench上67.4分超过GPT-OSS
Agent能力突出:TAU1-Retail达到70.4分(开源SOTA)
原生512K上下文支持(GPT-OSS为128K)
训练效率更高:仅用12T tokens训练
Seed-OSS仅用三分之一的参数量(36B vs 120B)就达到了与GPT-OSS-120B相当甚至更好的性能,这也算是字节用技术实力向外秀肌肉的时刻了。
字节此次的开源,可算是颇具深意。
当大家都在追求更大参数、更长训练的时候,Seed-OSS用12T tokens训练出了能打的36B模型。
这也向外部证明了一件事:训练效率比训练规模更重要。
更有意思的是两个基座模型的设计:带合成数据的版本性能更强,但「纯净版」给了研究者更多探索空间。
这样的选择权的提供,也体现了字节对开源社区的理解和尊重。
而当一众模型巨头们都在构建自己的护城河时,字节毅然选择加入开放阵营。
不得不说,字节选择在这时候开源Seed-OSS,时机选得很巧妙。
或许,拥有超强的模型能力,及全球傲视群雄的产品能力的字节——
才是OpenAI 最为担忧的最强对手。
Hugging Face: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base
[2]GitHub: https://github.com/ByteDance-Seed/seed-oss
[3]Seed官网: https://seed.bytedance.com/
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和5000+群友交流。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-20
DeepSeek V3.1 Base / Instruct 发布
2025-08-20
DeepSeek-V3.1-Base来了!MoE架构+128K上下文,性能再进化
2025-08-20
39种Dify常见报错及解决方案汇总
2025-08-20
突发!DeepSeek刚刚开源V3.1-Base
2025-08-19
GPT-OSS 图解:架构、推理模式与消息通道
2025-08-19
PS 再见!阿里 Qwen 开源全能 P 图神器,人人都是设计师!
2025-08-19
AGI|研究报告还能这样写?揭秘Open Deep Research智能生成全流程
2025-08-19
gpt-oss 模型在 Azure A10 和单卡 H100 机型上的性能测评
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-07-12
2025-07-29
2025-07-27
2025-07-31