我要投稿

Transformers V5正式发布！这次更新到底香不香？

发布日期：2026-01-30 08:22:01 浏览次数： 2122

作者：沉浸式学AI

微信搜一搜，关注“沉浸式学AI”

最近AI圈有个事挺有意思——Hugging Face家的Transformers库，悄咪咪把V5正式版给放出来了。

就是那个几乎每个搞AI开发的人都用过的库，从BERT到GPT，从Stable Diffusion到Llama，背后都少不了它。

说实话，看到这个消息我第一反应是：这么快？V4感觉还没用热乎呢。

但仔细一看更新日志，好家伙，改动还真不少。详细看：https://github.com/huggingface/transformers/releases/tag/v5.0.0

先说最直观的：API又双叒变了

用过Transformers的朋友都知道，这库啥都好，就是API变动有点频繁。

这次V5也不例外，上来就给你整了几个“破坏性更新”。

最明显的就是pipeline的用法。以前你写pipeline('text-generation')，现在得改成pipeline('text-generation', model='xxx')，把模型参数明确拎出来。

有开发者测试后表示，刚开始确实有点不习惯，但仔细想想，这么改其实更清晰了。以前那种隐式加载模型的方式，虽然写起来省事，但调试的时候经常搞不清到底用的是哪个模型。

现在这样一改，代码意图更明确，对团队协作和项目维护来说其实是好事。

性能提升是实打实的

当然，如果只是改改API，那肯定算不上大版本更新。

V5在性能上确实下了功夫。

最让我感兴趣的是推理速度的优化。官方说针对一些常见模型，推理速度能有10%-20%的提升。

这个数字听起来不算夸张，但在实际生产环境里，如果能省下这20%的算力，长期下来就是真金白银。

有人指出，这次优化主要集中在对Attention机制的计算上，用了更高效的内存管理和计算图优化。说白了，就是让GPU干活更利索，少做无用功。

新功能：原生支持MoE模型

https://github.com/huggingface/transformers/pull/43126

https://github.com/huggingface/transformers/pull/42697

这个可能是V5里最“未来向”的更新了。

MoE（Mixture of Experts）模型，最近火得不行。从Mixtral到Grok，大家都在用这个架构。

但以前在Transformers里用MoE模型，总得自己折腾一番，要么改源码，要么加一堆补丁。

现在好了，V5直接原生支持。你加载一个MoE模型，就跟加载普通模型一样简单。

我觉得这个更新特别及时。毕竟现在大模型越做越大，MoE这种“用多少算多少”的架构，很可能是未来的主流方向。

一些细节上的改进

除了这些大改动，V5还有很多贴心的小优化。

比如更好的量化支持。现在对GPTQ、AWQ这些量化格式的支持更完善了，加载量化模型出错概率小了很多。

再比如文档终于跟上了。Transformers的文档一直被人吐槽，这次V5的文档明显更清晰，示例代码也更实用。

还有错误信息更友好了。以前报错经常是一大段看不懂的traceback，现在至少能告诉你大概哪里出问题了。

升级前得注意这些坑

当然，新版本虽好，升级还是要谨慎。

最大的问题就是兼容性。V5放弃了对Python 3.7的支持，最低要求3.8。如果你的生产环境还在用老版本，得先升级Python。

另外，一些老的第三方插件可能还没适配V5，直接升级可能会导致项目跑不起来。

有经验的开发者建议，如果是新项目，可以直接上V5。但如果是老项目，最好先在测试环境里跑一遍，确认没问题再升级。

个人看法

我花了点时间把V5装上了，简单试了试。

整体感觉是，这次更新确实不是小打小闹。API的变化需要适应，但设计思路是朝着更清晰、更易维护的方向去的。

性能提升能感受到，特别是处理长文本的时候，内存占用确实优化了。

MoE的原生支持是个亮点，虽然现在用MoE模型的人还不算多，但这个布局很聪明。

不过我也发现，有些社区的预训练模型还没适配V5，如果你用的是一些小众模型，可能得等作者更新。

最后

Transformers V5这次更新，给我的感觉是Hugging Face在认真思考这个库的未来。

不只是加新功能，而是在重新设计一些基础的东西，让整个生态更健康。

短期看，升级有点麻烦，得改代码。但长期看，这些改动是值得的。

如果你问我推不推荐升级，我觉得：

做新项目，直接上V5，早用早享受
老项目如果不急，可以等社区更成熟再升
特别依赖某些第三方插件的，最好先确认兼容性

对了，V5还预告了一些即将到来的功能，比如更好的多模态支持、更灵活的微调工具。

等我再多用用，有什么新发现再跟大家分享。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-17

企业级靠谱龙虾升级，拒绝失控

2026-03-17

AI，正在吞噬所有软件。

2026-03-17

0.9B小模型碾压PaddleOCR！GLM-OCR本地OCR新王者来了

2026-03-17

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-16

Google 再次挥刀砍向 Pro 用户

2026-03-16

使用体验：Claude vs Gemini

2026-03-16

实测全球首个龙虾原生模型，它给自己造了一个技能商店，已抢疯。

2026-03-16

如何定义“人味儿”？——HeartBench评测体系建设实践

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

深度解析——为什么Claude code CEO Dario 如此反中？

2026-01-23

我装了 9 个 Skill，终于看懂了 Google Antigravity 的野心

2026-01-21

大家都在问

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-09

如果微信全面 AI 化了，会有什么后果？

2026-03-08

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

2026-03-03

Claude Code 的记忆机制：从CLAUDE.md到Auto Memory，它到底记住了什么？

2026-03-01

AGENTS.md 真的能帮助编码智能体吗？

2026-02-27

谷歌 Nano Banana 2 凌晨突袭！生图速度飙升，价格直接腰斩，Pro 功能竟然也免费了？

2026-02-27

Claude Code Security 的发布，会如何重塑传统网络安全企业？

2026-02-26

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw