微信扫码
添加专属顾问
我要投稿
众智FlagOS 2.0重磅升级,为智能体时代打造统一高效的计算底座,支持32款AI芯片和497个算子,开启AI基础设施新篇章。 核心内容: 1. FlagOS 2.0的八大核心升级,包括芯片支持和算子库扩展 2. 新增Triton-TLE编程语言和AI算子自动生成平台等创新成果 3. 从大模型到智能体的全场景覆盖,推动AI生态繁荣发展
近日,众智FlagOS 2.0于中关村论坛期间重磅发布,这是面向多种AI芯片的统一开源系统软件栈的重大版本升级。众智FlagOS 2.0全面拥抱智能体时代,将支持范围从大模型训推扩展到具身智能与科学计算,并为大模型性能提升正式发布Triton-TLE编程语言、AI算子自动生成平台KernelGen 2.0、FlagOS Skills 1.0智能体技能库等多项创新成果。
1
从大模型到智能体
AI基础设施的新命题
大模型开启了AI时代,而智能体正在重构现实世界。当AI从“生成回答”走向“持续感知、规划、执行任务”,对底层计算基础设施提出了全新挑战:
没有普适计算,智能体难以跨芯片、跨场景、跨平台运行;
没有高效计算,智能体难以进入政府、工业、金融、机器人等关键领域;
没有开放计算,AI生态将被单一路径锁定,难以形成真正繁荣的产业体系。
FlagOS要解决的问题始终如一——以更全面、更高效、更智能为核心目标,为智能体时代提供坚实的计算底座。
众智FlagOS 2.0 :面向多种AI芯片的统一、开源系统软件栈
(绿色部分为新增功能)
2
八大核心升级
1. 全球支持芯片种类最多的AI系统软件栈:18家厂商、32款芯片
FlagOS 2.0将芯片支持从上一版本的16家厂商25款芯片,扩展到18家厂商32款AI芯片,应用场景从数据中心延伸到边缘推理和机器人云边协同——实现了从云到端的全场景覆盖。
2. "1+6"算子库体系:497个算子,从大模型走向科学计算全域覆盖
FlagOS 2.0在原有FlagGems大模型算子库基础上,新增6大领域算子库,算子总数达到497个,构建起全球最大的多芯片算子库。
• 最大单一Triton算子库
FlagGems作为全球最大的Triton单一算子库,已有超过407个算子,并正式进入PyTorch基金会生态合作项目,同时已支持18个vLLM的重要融合算子。在40个主流模型上,推理任务算子覆盖度达到90%~100%。
• 新增六大领域算子库
AI芯片不仅仅加速大模型计算,也对更多领域起到计算加速的重要作用。这次6大领域FlagDNN(深度神经网络)、FlagBLAS(基础线性代数)、FlagFFT(快速傅里叶变换)、FlagSparse(稀疏矩阵)、FlagTensor(张量运算)、FlagAudio(语音处理)等算子库的发布,标志着FlagOS从"大模型专用"正式迈向科学计算全领域覆盖。目前共计90个算子,后续将不断扩充。
• 多厂商全面支持C++ Wrapper
天数智芯、摩尔线程、华为、寒武纪等多个芯片厂商全面支持FlagGems C++ Wrapper 关键能力,并对30个重点算子的C++ Wrapper 替换。作为连接Triton 高性能内核与PyTorch/推理框架运行时的关键桥梁,C++ Wrapper 将算子封装、注册机制和运行时管理下沉到C++ 层,在复用底层Triton Kernel 的同时,有效降低Python 运行时开销、提升端到端性能,并为多芯片环境下的统一分发、稳定调度和工程化落地提供核心支撑。
3. Triton-TLE:面向多架构的新一代编程语言
FlagOS 2.0的多芯片统一编译器FlagTree v0.5正式发布Triton-TLE(Triton Language Extension)——这是对原有Triton语言的全面扩展,让算子开发从单一GPU架构拓展到一个兼顾高性能、高开发效率的更广阔空间。
Triton-TLE 多层抽象架构图
Triton-TLE目前支持31种原语,与华为昇腾、清微智能深度合作,分别在GPU、DSA、可重构计算三大代表性架构上进行验证。实测性能显著优于原生Triton,接近甚至超过各芯片原厂C语言实现:
Triton-TLE 在多芯片上的典型算子性能提升
Triton-TLE的发布意味着:开发者可以用统一的语言编写算子,在多种架构上获得接近原生的性能——这是解决“一种芯片一套开发工具”困境的关键一步。
4. FLIR (FlagIR) : 支持多架构的统一中间表示层
通过与华为昇腾、清微智能、ARM AIPU团队深入合作,FlagOS 2.0的多芯片统一编译器FlagTree v0.5首次发布FLIR (FlagIR)的预览版,探索建立支持多芯片架构的统一中间表示层,让不同芯片可以共享统一编译优化、更容易适配。目前,FLIR已经支持了76个 Triton 语言的原语,103个 FlagGems 算子,首批支持芯片包括华为昇腾、清微智能、ARM AIPU。
FLIR 在FlagTree的架构支持
FLIR不但是FlagTree在Triton编译体系上的关键技术,也成为与生态协同的技术桥梁,本次预览版发布,也标志着众智FlagOS与华为昇腾CANN两大开源生态的打通。
5. FlagScale统一插件体系:从推理到训练到强化学习
AI芯片生态的另一个痛点是框架碎片化——各芯片厂商接入PyTorch、vLLM、Megatron等框架时,往往以不同方式“魔改”,导致版本不一致、接入方式不一致、优化策略不一致。
FlagScale统一多芯片插件体系
FlagOS 2.0通过FlagScale统一多芯片插件体系,向上连接多种主流AI框架,向下连接FlagOS核心能力与厂商原生能力,形成面向多元AI芯片的统一插件中枢:
• 推理:vLLM-plugin-FL(支持英伟达、华为、摩尔线程、沐曦、海光、清微智能、天数、平头哥等)
• 训练:Megatron-LM-FL+TransformerEngine-FL(支持英伟达、摩尔线程、沐曦、海光、昆仑芯、天数、清微智能等)
• 强化学习:VeRL-FL
FlagOS正从解决“N种芯片”的统一,迈向解决“M种框架与算法包接入”的统一。
6. FlagOS-Robo:面向具身智能的训练、推理、评测一体化多芯片框架
FlagOS 2.0本次发布的FlagOS-Robo更新版本,支持了更多模型的具身智能大模型的训练和推理,打通了具身智能领域的训练-推理-仿真评测全流程覆盖:
• 训练:支持RoboBrain2.0/2.5、PI0、PI0.5、GROOT N1.5等具身VLA模型,及具身大脑模型的微调训练
• 推理部署:支持云端多芯片(英伟达/华为昇腾/摩尔线程)和端侧多种硬件模组的推理部署(天数TY1200/英伟达THOR)
• 仿真评测:集成MuJoCo、SAPIEN/PhysX,支持LIBERO、RoboCasa、VLA-Arena、ManiSkill等评测集
FlagOS-Robo“训练-推理-仿真评测”全流程平台
7. KernelGen 2.0:全面升级支持6种AI芯片的算子自动生成
KernelGen 2.0是面向多种AI芯片的算子生成自动化平台,覆盖算子生成、基线构建、验证测试的完整生命周期,支持Triton和Triton-TLE两种语言,已适配6款AI芯片(英伟达、海光、摩尔线程、华为昇腾、天数智芯、沐曦)。在KernelGen-Bench(110个算子)上的测试结果显示:
KernelGen 2.0 vs Claude Code
及其在多芯片上的性能指标对比
KernelGen在英伟达上的算子生成正确性和加速比均显著超过Claude Code,在5种国产AI芯片上均获得高于92%的生成正确性,超过50%的算子性能优于芯片原生实现。KernelGen 2.0提供Web平台、智能体Skill和MCP等多种产品形态,支持VSCode、Claude Code和OpenClaw等开发工具接入。
8. FlagRelease:开源大模型的跨芯迁移与统一发布平台
FlagRelease(https://github.com/flagos-ai/FlagRelease)解决的是一个很实际的问题:当一个新的开源大模型发布后,开发者想在国产芯片上跑起来,通常需要自己处理分布式环境配置、芯片专属依赖、模型格式转换等一系列工作。FlagRelease把这些环节标准化了——为每个模型、每种芯片提供统一的源代码、验证过的模型文件和开箱即用的Docker镜像。
FlagRelease 多芯片模型迁移与发布流程图
截至目前,FlagRelease已面向10家厂商的12款硬件发布了70+个开源模型实例,覆盖DeepSeek-R1、Qwen3.5、GLM-5、TeleChat3等主流模型。每个模型实例都附带在对应芯片上的评测结果,作为技术参考。
更值得关注的是生态模式的演进。FlagRelease最初由FlagOS团队主导适配,现在已经进入模型厂商共建阶段——以中电信人工智能公司(TeleAI)为代表,模型方开始主动贡献适配,从"使用者"转变为"贡献者"。下一阶段的目标是模型方+芯片方的全生态共建:芯片厂商共建适配插件,模型方主动贡献模型适配,形成开放的双向生态。
3
全面拥抱智能体生态
FlagOS 2.0与智能体生态深度融合,形成双向赋能:
1. FlagOS Skills 1.0发布
FlagOS Skills 1.0 发布,为首个为AI计算打造的专业技能库。12种Skills覆盖模型适配、算子生成、性能调优等核心场景。开发者通过自然语言即可调用,支持Claude Code、Cursor、Codex、Gemini CLI等主流AI编程工具。
FlagOS skills 目前支持的主要skill list
以模型迁移为例,之前用户需要耗费几天的时间,使用FlagOS发布的model-migrate-flagos技能,即可快速、高效、智能的完成所有操作。
2. 众智FlagOS社区 SkillHub 全新上线
众智FlagOS社区在本次FlagOS 2.0版本发布同时,也进行了全面升级。为了让全球AI开发者在 “智能体OpenClaw” 时代很容易使用各种AI芯片平台,全新上线了 SkillHub(https://skillhub.flagos.io)。旨在为AI开发者打造一站式、面向多种AI芯片的 “最专业AI计算技能中心”,开发者可以一行命令安装全部技能:
npx skills add flagos-ai/skills --all
FlagOS赋予智能体普惠的推理能力,让智能体用户轻松解决“跨芯”问题;智能体则成为FlagOS生态的新入口,大幅降低多芯片开发的门槛。
FlagOS skillhub正式发布
4
产业落地与生态共建
公有云上线:FlagOS联合腾讯云和阿里云,将模型镜像正式上线公有云,开发者可直接拉取使用,快速部署FlagOS + 智能体,为企业从公有云API转向自建本地AI服务提供了可落地的实践路径。
企业合作:东华软件SmartX智能体平台与FlagOS结合,以统一软件栈、广泛芯片兼容性和高效开发体验,帮助企业在多芯片上轻松构建智能体解决方案。
开源共建模式升级:FlagRelease平台已面向10家厂商12款硬件发布70+开源模型实例。以中电信人工智能公司为代表,厂商正从"使用方"成长为"贡献方",从单向适配走向模型方+芯片方的全生态共建。
人才培养:智源研究院与北京大学计算机学院共同完成48课时《智算系统软硬件基础》课程建设(https://flagos.educoder.net),已纳入国家智慧教育平台,由北大正式开课,并通过开源方式助力更多高校进行课程打造。
FlagOS开放计算全球挑战赛:该赛事是由众智FlagOS社区和北京智源人工智能研究院联合主办的一项多赛季、综合性赛事。大赛鼓励开发者基于统一AI系统软件栈FlagOS的能力进行创作实战和创新探索,促进AI开发者能力提升。
赛事总奖金池高达200万元,诚邀AI算法与系统工程师、硬件与编译器开发者,以及所有致力于突破AI芯片编程复杂性的技术实践者与梦想家参与挑战,共同推进开放计算生态的蓬勃发展。本赛季聚焦算子开发、大模型推理优化、自动数据标注三大核心赛道,以深度优化大模型性能与运行效率,推动技术落地与行业创新。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-01
32.4k Star!微软开源语音AI全家桶,一次搞定TTS和ASR,还是ICLR Oral
2026-04-01
OpenCode,国内AI自主编程(Agentic Coding)的新选择
2026-04-01
Claude Code 的秘密:Claude Code 基于 0331 开源版本的深度调研
2026-03-31
刚刚,Claude Code开源了!51万行代码,全网狂欢
2026-03-31
开源 Claude Code 工程级开发插件 Superpowers 完整上手攻略
2026-03-31
CoPaw深度解析:源码架构和功能实践
2026-03-30
企业微信正式开源CLI ,AI可调用7大能力
2026-03-30
龙虾绝配:Qwen 3.5 27B!跑在家里,成本为 0
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-06
2026-01-23
2026-01-26
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21