微信扫码
添加专属顾问
我要投稿
自 2023 年 3 月 14 日开源 ChatGLM-6B 以来,GLM 系列模型受到广泛关注和认可。特别是 ChatGLM3-6B开源以后,开发者对智谱AI 第四代模型的开源充满期待。
为了使小模型(10B 以下)具备更加强大的能力,GLM 技术团队进行了大量探索工作。经过近半年的探索,我们推出了第四代 GLM 系列开源模型:GLM-4-9B。
在预训练方面,我们引入了大语言模型进入数据筛选流程,最终获得了 10T 高质量多语言数据,数据量是 ChatGLM3-6B 模型的 3 倍以上。同时,我们采用了 FP8 技术进行高效的预训练,相较于第三代模型,训练效率提高了 3.5 倍。在有限显存的情况下,我们探索了性能的极限,并发现 6B 模型性能有限。因此,在考虑到大多数用户的显存大小后,我们将模型规模提升至 9B,并将预训练计算量增加了 5 倍。
综合以上技术升级和其他经验,GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。
以下是 GLM-4-9B 的能力掠影:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-16
新版 GPT-5 刚刚发布,最卷 AI 连肝代码 7 小时,编程工具大洗牌开始了
2025-09-16
Subagents:构建高可靠 AI Coding 专家顾问团
2025-09-16
刚刚!阿里发新模型,幻觉率爆降70%
2025-09-16
Agent三大痛点:知识库+工作流+Prompt工程
2025-09-16
Anthropic发布首个AI经济指数报告:越富越用AI,企业比个人更信任AI
2025-09-16
Claude Code与GitHub结合使用的实践指南
2025-09-16
企业复杂Agent落地的12个工程化原则 | 原则二:构建Prompt工程可扩展、可维护、可调试、可回滚 | 提示词A/B实验
2025-09-16
OpenAI深夜放出「编程核弹」:GPT-5-Codex 正式发布,能独立爆肝7 小时
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-14
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08