支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Mixtral 8x22B:更便宜、更好、更快、更强大

发布日期:2024-04-23 23:15:33 浏览次数: 2388 作者:PaperAgent

Mistral发布并开源了Mixtral-8x22B-v0.1Mixtral-8x22B-Instruct-v0.1Mixtral 8x22BMistral最新的开放模型。它为人工智能社区在性能和效率方面树立了新的标准。这是一个稀疏的专家混合(SMoE)模型,在使用的1410亿参数中,只有390亿是活跃的,为其大小提供了无与伦比的成本效率。

Mixtral 8x22B 具有以下优点:
  • 它具有强大的数学和编码能力。
  • 它原生支持函数调用;
  • 它的64K令牌上下文窗口允许从大型文档中精确地回忆信息。
  • 在Apache 2.0许可下免费使用

  • 性能超越所有开放模型

效率之最 
我们构建的模型为各自的规模提供了无与伦比的成本效率,提供了社区提供模型中最好的性能-成本比。Mixtral 8x22B是我们开放模型家族的自然延续。它的稀疏激活模式使其比任何密集的70B模型更快,同时比任何其他开放权重模型(在宽松或限制性许可证下分发)更有能力。基础模型的可用性使其成为微调用例的极好基础。 
衡量性能(MMLU)与推理预算权衡(活跃参数数量)的指标。Mistral 7B、Mixtral 8x7B和Mixtral 8x22B都属于与其它开放模型相比高度高效的模型家族。
无与伦比的开放性能 
推理和知识
Mixtral 8x22B针对推理进行了优化。 
在广泛常识、推理和知识基准测试中,顶级领先的LLM开放模型的性能:MMLU(衡量大规模多任务语言理解)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(5-shot)和NaturalQS(5-shot)。 
多语言能力 
Mixtral 8x22B具有原生的多语言能力。在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU基准测试中,它的表现大大超过了LLaMA 2 70B。 
Mistral开源模型与LLaMA 2 70B在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU的比较。
数学与编码 
与其他开放模型相比,Mixtral 8x22B在编码和数学任务中表现最佳。 
在领先的开放模型的流行编码和数学基准测试中的表现:HumanEval pass@1、MBPP pass@1、GSM8K maj@1(5-shot)、GSM8K maj@8(8-shot)和Math maj@4。 



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询