免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

GLM-4.7-Flash无审查版发布:30B MoE模型,仅3B激活参数

发布日期:2026-01-25 09:27:10 浏览次数: 1524
作者:AI工程化

微信搜一搜,关注“AI工程化”

推荐语

GLM-4.7-Flash无审查版重磅发布,30B MoE架构带来高效推理体验,支持200K超长上下文,满足不同场景需求。

核心内容:
1. 模型特点:30B-A3B混合专家架构,仅激活3B参数实现快速推理
2. 版本选择:平衡版与激进版分别适用于不同应用场景
3. 技术细节:提供多种量化格式,兼容主流推理框架

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

GLM-4.7-Flash的无审查版本现已发布,由HauhauCS制作。该模型基于Z.ai的原版GLM-4.7-Flash,但移除了所有审查机制。

模型采用30B-A3B混合专家架构,总参数量31B,但每次前向传播仅激活约3B参数,这意味着推理速度会很快。同时支持200K的上下文长度。

两种变体

  • 平衡版:适合需要可靠性的智能体编码场景,在保持能力的同时不会过度拒绝请求
  • 激进版:适合其他所有无审查主题

量化版本

目前提供了四种量化格式:

量化类型 文件大小
FP16 56 GB
Q8_0 30 GB
Q6_K 23 GB
Q4_K_M 17 GB

技术规格

  • 模型架构:30B-A3B MoE(31B总参数,~3B激活参数)
  • 上下文长度:202K
  • 基础模型:zai-org/GLM-4.7-Flash

推荐设置

根据Z.ai官方的建议:

通用用途:

  • --temp 1.0 --top-p 0.95

工具调用/智能体场景:

  • --temp 0.7 --top-p 1.0

重要提示:

  • 禁用重复惩罚(或设置--repeat-penalty 1.0
  • llama.cpp用户使用--min-p 0.01(默认0.05过高)
  • 使用--jinja标志

兼容性

目前与Ollama存在聊天模板兼容性问题,建议使用llama.cpp、LM Studio、Jan或koboldcpp。

HauhauCS表示,这些无审查版本的目标是尽可能无损地保留原版模型的能力,只是移除了拒绝机制。对于需要更小模型的用户,他还发布了GPT-OSS 20B的无审查版本。

模型链接:

  • 平衡版:https://huggingface.co/HauhauCS/GLM-4.7-Flash-Uncensored-HauhauCS-Balanced
  • 激进版:https://huggingface.co/HauhauCS/GLM-4.7-Flash-Uncensored-HauhauCS-Aggressive
  • 关注公众号回复“进群”入群讨论。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询