我要投稿

Mixtral 8x22B：更便宜、更好、更快、更强大

发布日期：2024-04-23 23:15:33 浏览次数： 2586

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

Mistral发布并开源了Mixtral-8x22B-v0.1和Mixtral-8x22B-Instruct-v0.1，Mixtral 8x22B是Mistral最新的开放模型。它为人工智能社区在性能和效率方面树立了新的标准。这是一个稀疏的专家混合（SMoE）模型，在使用的1410亿参数中，只有390亿是活跃的，为其大小提供了无与伦比的成本效率。

Mixtral 8x22B 具有以下优点：

它具有强大的数学和编码能力。
它原生支持函数调用；
它的64K令牌上下文窗口允许从大型文档中精确地回忆信息。
在Apache 2.0许可下免费使用
性能超越所有开放模型

效率之最

我们构建的模型为各自的规模提供了无与伦比的成本效率，提供了社区提供模型中最好的性能-成本比。Mixtral 8x22B是我们开放模型家族的自然延续。它的稀疏激活模式使其比任何密集的70B模型更快，同时比任何其他开放权重模型（在宽松或限制性许可证下分发）更有能力。基础模型的可用性使其成为微调用例的极好基础。

衡量性能（MMLU）与推理预算权衡（活跃参数数量）的指标。Mistral 7B、Mixtral 8x7B和Mixtral 8x22B都属于与其它开放模型相比高度高效的模型家族。

无与伦比的开放性能

推理和知识

Mixtral 8x22B针对推理进行了优化。

在广泛常识、推理和知识基准测试中，顶级领先的LLM开放模型的性能：MMLU（衡量大规模多任务语言理解）、HellaSwag（10-shot）、Wino Grande（5-shot）、Arc Challenge（5-shot）、Arc Challenge（25-shot）、TriviaQA（5-shot）和NaturalQS（5-shot）。

多语言能力

Mixtral 8x22B具有原生的多语言能力。在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU基准测试中，它的表现大大超过了LLaMA 2 70B。

Mistral开源模型与LLaMA 2 70B在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU的比较。

数学与编码

与其他开放模型相比，Mixtral 8x22B在编码和数学任务中表现最佳。

在领先的开放模型的流行编码和数学基准测试中的表现：HumanEval pass@1、MBPP pass@1、GSM8K maj@1（5-shot）、GSM8K maj@8（8-shot）和Math maj@4。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

实测Qwen3-Coder，这就是目前最强的开源编程模型

2025-07-23

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

Qwen3-Coder开源：面向世界的智能编程引擎

2025-07-23

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

大家都在问

扣子（Coze）开源了！你发现了哪些商业机会？

2025-07-30

GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

2025-07-29

AI 应用开发，还需要意图识别吗？

2025-07-29

Coze既可开源也能本地部署，n8n和coze哪家强？

2025-07-29

AI还有哪些机会？你是否适合切入？

2025-07-29

文档知识图谱构建：AI代理如何简化复杂流程？

2025-07-29

AI Agent 新选择：Coze Studio 开源上手实录，能替代 Dify 吗？

2025-07-28

Cursor Meetup 杭州站分享实录：小团队如何用 AI 撑起万级日活产品？

2025-07-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备14082021号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部