比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类

浏览次数： 1534

夕小瑶科技说分享
Llama3 最近实在太火了！

它的性能匹敌 Gemini 1.5 Pro，接近GPT-4，赢得了“最强开源大模型”的称号。

国内外开源社区都为之感到振奋，果然开源大模型还是只能仰赖大洋彼岸的Meta吗？

其实不然，笔者惊喜地发现在国内竟然有一家比 Llama3 更早的开源大模型SOTA创造者——面壁智能！

没错，就在 Llama3 发布（4 月 18 日）的前两天，面壁智能已经低调地开源了综合性能不输于 Llama3的大模型Eurux-8x22B。它在代码和数学等体现大模型核心素质的复杂推理综合性能方面超越 Llama3-70B，刷新开源大模型 SOTA，堪称「理科状元」。

不仅开源时间早于LlaMa3，Eurux-8x22B的激活参数仅有39B，推理速度更快，且目前支持 64k上下文，相比 Llama3-70B的8K上下文更具优势。

一句话总结：Eurux-8x22B 相比 Llama3-70B 更快、更长、理科更好！

此外，Eurux-8x22B 由 Mistral-8x22B 对齐而来，综合性能不输 Llama3-70B。

Eurux-8x22简直太牛了！这不禁让人好奇，它究竟为何这么强？

在回答这个问题之前，笔者其实一直在思考着一个问题。

不知道大家有没有发现，Llama 3诞生的背后，Meta 可是下了大血本——使用49000个H100、预训练数据超过15万亿token、微调对齐超过1000万条人工标注数据。

试问，像Meta这种烧钱的打法，全球能有几家公司玩得起？

难道大模型训练要被大公司垄断了吗？难道只有堆砌海量的GPU和数据才能打造出强劲的模型吗？

这背后其实关乎到了大模型行业最关键最致命的一个问题：有没有一种更高效更低成本的训练大模型的方法呢？

还真就有！而且答案就藏在今天的主角面壁智能身上。

今天笔者就带大家仔细扒一扒面壁智能“比 Llama3 更早地打造开源大模型SOTA”背后的秘密。

这背后不仅藏着一个「大模型上分神器」——面壁 Ultra 对齐技术，还藏着面壁智能训练大模型最核心的秘诀：一整套全流程高效大模型生产线。

Eurux-8x22B 模型和对齐数据，全家桶开源：

https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca

一、开源大模型「理科状元」：LeetCode 周赛超越80%的人类选手

复杂推理能力是体现大模型性能差异的最核心能力之一，也是大模型真正落地应用所需的关键能力所在。Eurux-8x22B在代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA。

具体而言，Eurux-8x22B在 LeetCode （180道LeetCode编程真题）和TheoremQA（美国大学水准的STEM题目）这两个具有挑战性的基准测试中，超过现有开源模型。

那么开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢？

代码能力方面，我们让它参加了近期的一场LeetCode 周赛，这是一个检验人类程序员编程能力的真实竞技场。

结果显示，Eurux-8x22B 的Python编程能力非常优秀，成功解决了四道算法题中的三道，其综合排名超越了80%的人类参赛选手，可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答：

除了代码能力优秀，Eurux-8x22B 解答数学题也是轻而易举。

例如给它一道高中排列组合题，Eurux-8x22B 首先给出了清晰的解题思路，然后一步步地拆解执行，再进行结果汇总，最后得到正确答案。

再考察它一道代数题，Eurux-8x22B 直击要害，运用二项式定理，清晰简洁地给出了正确的解答。

接着给它一道向量代数题，Eurux-8x22B 也能轻松拿下。

高考函数题可能是令很多人回忆起来就头疼的一类题，Eurux-8x22B 也能解答无误。

（注：Eurux-8x22B 没有针对中文语料进行额外的微调和对齐。）

二、大模型上分神器：面壁 Ultra 对齐技术

为何 Eurux-8x22B 能刷新开源大模型推理性能SOTA，成为「理科状元」？

这背后主要得益于大模型上分神器——面壁 Ultra 对齐技术（Ultra Series）新增了大规模、高质量对齐数据集UltraInteract。

UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集，包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对，共有五十万（条）左右数据。而相比之下，LLaMA 3-70B模型则是使用了千万量级的对齐数据，这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。如此高质量的对齐数据是如何构建的呢？

严格质量控制和筛选。首先，我们从多个开源数据集中抽样出难度较高、考察多样推理能力的86k复杂推理问题，并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。
逐步推理。对于每条指令，模型都会按照思维链（CoT）格式进行逐步推理（如下图①），生成格式统一但模式多样的推理过程。
多轮交互。在模型给出推理过程之后，会自动与答案对比确定推理过程是否正确（如下图②），如果不正确，UltraInteract会使用另一个批评模型（如下图③）指出错误并给出改进建议，生成新的逐步推理（如下图④），再与策略模型进行多轮交互（如下图⑤⑥），直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力，在实际表现中让其可以更好地和人进行多轮交互问答。

首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用，UltraInteract还为每个问题都构建了一棵偏好树（如下图所示），其中问题作为根节点，每个回复作为一个子节点，每一轮生成两个节点(一对一错相配对)。所有正确推理对应的节点都可以用于SFT，而配对的节点则可以用于偏好学习。

除了UltraInteract数据集的大力加持，偏好对齐也对Eurux-8x22B的推理性能提升有所帮助。面壁发现，在推理任务中，提升正确答案的奖励值对于偏好对齐的效果十分重要，因为正确答案的空间比错误答案更有限，因此更加重要，模型在训练过程中不能偏离正确答案。然而，当前流行的DPO算法会使正确答案和错误答案的奖励值共同降低，因此在实验中效果不佳。面壁采用另外两种偏好对齐算法KTO和NCA，取得了更好的效果，能在SFT的基础上进一步提升模型性能。

UltraInteract 数据集在开源社区受到了广泛好评，面壁 Ultra 对齐技术此前已经“强壮”了全球超 200 个大模型，尤其擅长提升大模型「以小博大」能力，被网友誉为大模型界的大力丸！例如，在面壁 Ultra 数据集的加持下，Zephyr-7B 以更小规模，在不少指标上超越了 LLaMA2-70B-Chat；面壁 Ultra 数据集亦帮助「大模型中的小钢炮」面壁 MiniCPM-2B 取得与 Mistral-7B 一较高下惊艳的表现。

三、面壁智能「高效大模型」秘诀：全流程高效大模型生产线

从领先的端侧模型「小钢炮」MiniCPM，到开创开源模型推理性能新 SOTA 的Eurux-8x22B，为什么面壁智能总能推出同等参数、性能更优的「高效大模型」？

答案是，面壁深厚的大模型原创技术底蕴与全流程高效大模型生产线，塑造了这条格外惊艳的大模型Scaling Law增长曲线：

对于大模型这项复杂的系统工程，除了上述高质量数据集和面壁 Ultra 对齐技术，面壁还自研了面壁Infra 工艺、「模型沙盒」算法，从数据原材料、到模型制作过程中精湛的训练与调校工艺环环相扣，打造出高效大模型独特竞争力。

Infra工艺方面，面壁构建了全流程优化加速工具套件平台ModelForce，可以实现 10 倍推理加速，90% 成本降低。如大模型训练“发动机”BMTrain，可以进行高效的大模型预训练与微调，与DeepSpeed等框架相比，BMTrain训练模型成本可节省90%。

算法方面，面壁进行了千次以上的「模型沙盒」实验，这一更加科学的训模方法，以小见大，寻找高效模型训练配置，实现模型能力快速形成。

面壁一直是开源的坚定拥抱者和践行者，他们深知开源对整个行业发展的促进作用，因此每次都会把数据、infra工具、模型等进行「全家桶开源」。面壁未来还将持续开源高效大模型及其背后的全流程高效大模型生产线，希望开源开放的精神最终将惠及所有人。

Eurus-8x22B模型+对齐数据集开源地址：

https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca

MiniCPM 系列模型开源地址：

https://github.com/OpenBMB/MiniCPM

推荐新闻

RAG系列04：使用ReRank进行重排序

本文介绍了重排序的原理和两种主流的重排序方法：基于重排模型和基于 LLM。文章指出，重排序是对检索到的上下文进行再次筛选的过程，类似于排序过程中的粗排和精排。在检索增强生成中，精排的术语就叫重排序。文章还介绍了使用 Cohere 提供的在线模型、bge-reranker-base 和 bge-reranker-large 等开源模型以及 LLM 实现重排序的方法。最后，文章得出结论：使用重排模型的方法轻量级、开销较小；而使用 LLM 的方法在多个基准测试上表现良好，但成本较高，且只有在使用 ChatGPT 和 GPT-4 时表现良好，如使用其他开源模型，如 FLAN-T5 和 Vicuna-13B 时，其性能就不那么理想。因此，在实际项目中，需要做出特定的权衡。

LangGPT论文：面向大语言模型的自然语言编程框架（中文版）

大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而，对于非AI专家来说，制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。

第三篇：要真正入门AI，OpenAI的官方Prompt工程指南肯定还不够，您必须了解的强大方法论和框架！！！

自从ChatGPT（全名：Chat Generative Pre-trained Transformer）于2022年11月30日发布以来，一个新兴的行业突然兴起，那就是提示工程（Prompt engineering），可谓如日冲天。从简单的文章扩写，到RAG，ChatGPT展现了前所未有的惊人能力。

（三）12个RAG痛点及其解决方案

痛点9:结构化数据QA 痛点10:从复杂 PDF 中提取数据痛点11:后备模型痛点12:LLM安全

（二）12个RAG痛点及其解决方案

痛点5:格式错误痛点6:不正确的特异性痛点7:不完整痛点8:数据摄取可扩展性