DeepSeek 推理型 AI 尽显高效训练的小模型之威

发布日期：2025-02-10 21:11:01 浏览次数： 2704

作者：IBM中国

微信搜一搜，关注“IBM中国”

—— 在 IBM 院士 Kush Varshney 看来，全球 AI 竞赛中的地缘政治差异，可能没有人们想象的那么重要，他说：“一旦模型开源，它源自何处在很多方面就不再重要了。”

（北京，2025年 2月 10日）DeepSeek-R1 是中国初创公司 DeepSeek 推出的人工智能模型，不久前，在人工智能开源平台 Hugging Face 上发布数小时，便跃居下载量和活跃度最高模型的榜首；同时因其促使投资者重新考虑英伟达（NVIDIA）等芯片制造商的估值，以及 AI 巨头为扩大其AI业务规模而进行的巨额投资，从而给金融市场也带来了震荡。

为何掀起如此大的波澜？DeepSeek-R1 是一款所谓 “推理模型 ”的数字助理，在某些数学和编码任务的人工智能基准测试中，它的表现与 OpenAI 的 o1 不相上下；而据该公司称，训练该系统所使用的芯片数量却要少得多，使用成本低约 96%。

IBM AI 硬件部门的一位首席研究科学家兼经理 Kaoutar El Maghraoui 说：“DeepSeek 无疑正在重塑人工智能的格局，它以开源的雄心和最先进的创新技术向巨头们发起挑战。”

与此同时，TikTok 母公司、中国科技巨头字节跳动最近发布了自己的推理型代理（智能体）UI-TARS，并声称该智能体在某些基准测试中优于 OpenAI 的 GPT-4o、Anthropic 的 Claude 和谷歌的 Gemini。字节跳动的智能体可以读取图形界面，进行推理，并采取自主和一步接一步的行动。

从初创公司到成熟巨头，中国的人工智能公司似乎正在缩小与美国竞争对手的差距，这在很大程度上要归功于它们愿意开源或与其他企业和软件开发商共享底层软件代码。IBM 花岗岩（Granite）模型高级技术产品经理 Abraham Daniels 说：“DeepSeek 已经能够在整个社区推广一些相当强大的模型。DeepSeek 真的有可能加速人工智能的民主化。”DeepSeek-R1 在 Hugging Face 上提供，根据 MIT 许可证，允许不受限制地用于商业用途。

去年夏天，中国公司快手（Kuaishou）发布了一款视频生成工具，它与 OpenAI 的索拉（Sora）类似，但公众可以直接使用。Sora 于去年 2 月亮相，但直到 12 月才正式发布，即便如此，也只有订阅了 ChatGPT Pro 的用户才能使用其全部功能。Hugging Face 上的开发者还抢购了中国科技巨头腾讯和阿里巴巴的新开源模式。虽然 Meta 已将其 Llama 模型开源，但 OpenAI 和谷歌在模型开发方面都主要采用闭源方式。

除了开源带来的好处外，DeepSeek 工程师在训练系统时使用的英伟达（NVIDIA）高度专业化芯片也仅为美国竞争对手的一小部分。例如，DeepSeek 工程师在发布 DeepSeek-V3 模型时发表的研究论文称，他们只需要 2000 个 GPU（图形处理单元）或芯片就能训练出他们的模型。

推理模型

IBM 院士（IBM Fellow） Kush Varshney 说：“真正令人印象深刻的是 DeepSeek 模型的推理能力。”推理模型本质上是自我验证或检查，代表了一种 “元认知 ”或 “关于思考的思考”。“我们正开始将智慧融入到这些模型中，这是巨大的进步，”Varshney 说。

去年 9月，当 OpenAI 预览其 o1 推理模型时，推理模型成为热门话题。与以往只给出答案而不解释推理过程的人工智能模型不同，它通过将复杂问题分成几个步骤来解决。推理模型可能需要多花几秒或几分钟来回答问题，因为它们会一步一步或以 “思维链 ”的方式来反思自己的分析。

强化学习

DeepSeek-R1 将思维链推理与强化学习相结合，在强化学习中，自主智能体在没有人类用户任何指令的情况下，通过反复试错学会执行任务。强化学习有别于更常用的学习形式，如监督学习和无监督学习，前者使用人工标注的数据进行预测或分类，后者旨在从无标注的数据中发现和学习隐藏的模式。

DeepSeek-R1 质疑了这样一种假设，即通过对正确或错误行为的标记示例进行训练，或者从隐藏模式中提取信息，模型的推理能力就会得到提高。密歇根州立大学博士生张逸骅撰写了数十篇机器学习方面的论文，他说：“它的核心假设很简约，却不那么简单：我们能否只通过奖励信号来教会模型正确回答，从而让它自己摸索出最优的思考方式？”

张逸骅说，对于他和像他一样习惯了传统监督微调的专家而言，“眼见 DeepSeek 这样的大型语言模型仅靠强化学习奖励就能学会‘更好地思考’，着实令人惊艳”，尤其是看到“模型出现真正的‘aha (顿悟)时刻’，它能后退一步，发现错误并自我纠正”。

成本计算

DeepSeek 引发的热议部分源于其低廉的价格。根据该公司发布的技术报告，在圣诞节当天发布的 DeepSeek-V3 的训练成本为 550万美元，而对于希望试用它的开发人员来说，价格要便宜得多。IBM 杰出工程师 Chris Hay 说：“他们在模型成本方面所做的工作，以及他们训练模型所花费的时间，确实令人印象深刻。”

然而，IBM 研究院 Granite 技术产品管理总监 Kate Soule 表示，低廉的价格标签可能并不是故事的全部。她说，550万美元的成本 “只代表了所需计算量的一小部分”。她说，这还不包括公司即使采用开源模型也要保持专有的成本细节，比如 “强化学习、数据消减和超参数搜索的计算成本”。

无可置疑的是，DeepSeek 通过使用专家混合（MoE）架构实现了更高的成本效益，而这种架构大大降低了训练所需的资源。MoE 架构将人工智能模型划分为不同的子网络（或 “专家”），每个子网络专门处理输入数据的一个子集。模型只激活特定任务所需的特定专家，而不是激活整个神经网络。因此，MoE 架构大大降低了预训练期间的计算成本，并在推理期间实现了更快的性能。在过去一年中，包括法国领先的人工智能公司 Mistral 和 IBM 在内的全球多家公司着力推广了 MoE 架构，并通过将 MoE 与开源相结合实现了更高的效率。（例如，IBM 在 2024年 Think 大会宣布与红帽一起推出 InstructLab，一个推动大模型开源创新的革命性大模型对齐方法。）

就 IBM 的一系列开源 Granite 模型（采用 MoE 架构开发）而言，企业能够以极低的成本实现前沿模型的性能，因为他们可以针对特定应用或用例调整大型预训练模型，从而有效创建更小的适用模型。将强大的功能集成到更小的稠密模型上，意味着这些模型可用于智能手机和其他在边缘运行的移动设备，如汽车计算机或工厂车间的智能传感器。

这种采用较大模型并将其蒸馏成资源密集度较低的较小模型的过程也为 DeepSeek 的成功做出了贡献。在发布其标志性的 R1 模型的同时，这家中国初创公司还发布了一系列更小的适合不同用途的模型。有趣的是，他们用实践证明，与一开始就对小型模型进行强化学习相比，将大型模型蒸馏成小型模型的推理效果更好。

全球性的人工智能洗牌？

随着这些新模型在某些基准测试中与老一代竞争对手相抗衡或超越它们时，它们将如何影响全球人工智能格局？El Maghraoui 说：“全球人工智能格局不只关乎基准测试的原始性能，更关系到是否能以安全和道德的方式对这些模型进行端到端的整合。” 因此，El Maghraoui 表示，现在判断 DeepSeek-R1 及其他产品是否会 “改变人类互动、技术和企业应用 ”，还为时尚早。

最终，“开发人员的采用率将决定 DeepSeek 模型的受欢迎程度，” Daniels 说。他表示期待“看到他们为模型发掘出的各种用例”。

在 IBM 院士 Kush Varshney 看来，全球AI竞赛中的地缘政治差异，可能没有人们想象的那么重要，他说：“一旦模型开源，它源自何处在很多方面就不再重要了。”