免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Qwen3-4B:256K上下文,性能相当GPT-4.1-nano

发布日期:2025-08-15 07:51:01 浏览次数: 1512
作者:最佳人生

微信搜一搜,关注“最佳人生”

推荐语

阿里Qwen3-4B模型重磅升级,256K超长上下文支持,性能直逼GPT-4.1-nano!

核心内容:
1. Qwen3-4B两大升级版本:指令版提升多语言能力,思考版强化逻辑推理
2. 4B参数模型实现256K超长上下文处理能力
3. 性能测试显示接近30B大模型水平,特别适合翻译和RAG应用

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

阿里发布了 Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。

这2款模型比3月前发布的 Qwen3-4B 更智能、更敏锐、且支持 256K上下文!

🔹指令:提高一般技能、多语言覆盖和长程上下文指令的遵循。

🔹思考:逻辑、数学、科学和代码的高级推理,专为专家级任务而构建。

两种模型都更加一致、功能更强大、并且更能感知环境。

hf模型:

https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507

https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区下载:

https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

模型概览

Qwen3-4B 具有以下特点:

训练阶段:预训练、后训练

参数量:4B

非嵌入层参数量:3.6B

层数:36层

注意力头数量(GQA):Q 32 个,K 8 个

上下文长度:原生支持262,144 token,即 256k

基准评估
从下图比较可得出,思考模式的 Qwen3-4B 性能接近于思考模式的 Qwen3-30B-A3B 模型。
而非思考模式的 Qwen3-4B 性能接近于GPT-4.1-nano-2025-04-14。
图像
image/jpeg
例子

以下例子使用了非思考模式的 Qwen3-4B 模型。

1. Prompt:Space Invaders Game Implementation
效果如下(生成的游戏画面不完整,但能射击也可以左右移动):
2. Prompt:生成一只鹈鹕骑自行车的SVG图形
效果如下:
结语

Qwen3-4B,在小模型队伍里比较亮眼,256K的上下文,适合做翻译任务、tool call 和 RAG等。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询