我要投稿

金融大模型推理能力瓶颈如何突破？通义点金提出 DianJin-R1 框架，点石成金！

发布日期：2025-04-28 13:11:56 浏览次数： 1975

作者：AcademicDaily

微信搜一搜，关注“AcademicDaily”

在金融领域，大模型的 “聪明程度” 直接关乎风险控制、合规审查等核心场景的落地效果。

但面对复杂的财务报表计算、监管规则匹配，甚至客服对话中的合规性检测，传统大模型常常 “卡壳”—— 要么算错数，要么漏掉关键规则，更有人工智能团队为了提升准确性，不得不依赖多轮对话的 “代理接力”，导致效率大打折扣。

有没有一种方法，能让大模型既 “算得准” 又 “想得全”，还能 “一步到位” 解决复杂推理？

阿里通义点金团队最新研究成果 DianJin-R1 给出了答案：通过定制化数据集、结构化推理训练和强化学习优化，其单轮推理性能在真实金融场景中超越了需要多次调用的多代理系统，为金融 AI 落地打开了新想象空间。

【论文链接】https://arxiv.org/pdf/2504.15716v1

源码见文末

摘要

在金融领域，有效的推理仍然是LLMs面临的核心挑战，该领域的任务通常需要特定领域的知识、精确的数值计算以及严格遵守合规规则。

本文提出点金R1，这是一个推理增强框架，旨在通过推理增强监督和强化学习来应对这些挑战。

该方法的核心是点金R1数据，这是一个由CFLUE、FinQA和专有合规语料库构建的高质量数据集，它将各种金融推理场景与经过验证的注释相结合。

本文的模型点金R17B和点金R132B，是从Qwen2.57B指令模型和Qwen2.532B指令模型微调而来，采用结构化格式生成推理步骤和最终答案。

为了进一步优化推理质量，应用了GRPO强化学习方法。

结合了双重奖励信号：一个用于鼓励结构化输出，另一个用于奖励答案的正确性。

在五个基准测试中评估了模型：三个金融数据集以及两个通用推理基准。

实验结果表明，点金R1模型始终优于非推理模型，尤其是在复杂的金融任务上。

此外，在真实世界的CCC数据集上，本文的单次调用推理模型的性能与需要更高计算成本的多智能体系统相当，甚至超越了它们。

这些发现证明了点金R1通过结构化监督和奖励对齐学习来增强金融推理的有效性，为实际应用提供了一种可扩展的实用解决方案。

背景

LLMs的发展引发了人们对提升其推理能力的兴趣，已有研究表明对推理过程进行显式建模可提升复杂任务的性能。

然而，金融领域的推理任务因需要特定知识、精确数值推理和严格合规，对大语言模型来说仍极具挑战，需要专门的推理策略来处理结构化金融信息和开放式问题求解。

在此背景下，提出点金R1，旨在通过推理增强监督和强化学习提升大语言模型在金融推理任务上的表现。

贡献

构建高质量推理数据集点金R1 Data，结合多个数据源并通过验证确保数据质量，为模型训练提供支持。
提出基于Qwen2.5系列模型微调的点金R17B和点金R132B模型，并使用结构化输出格式生成推理过程和答案。
应用GRPO算法，通过双重奖励信号进一步提升模型推理质量。

点金R1数据架构

4.1 数据来源

CFLUE：一个开源中文金融领域基准数据集，通过长度、难度和歧义性三步过滤，选取高质量选择题，许多题配有详细解释，作为有价值的推理注释。

FinQA：开源英文基准数据集，包含需对财务报告进行数值推理的问答对，经过与CFLUE相同的长度和难度过滤，得到高质量子集。

CCC：内部数据集，用于检测中国金融客服对话中的合规违规情况，数据来自实际客服操作的在线质检系统，经过人工审核确保标注准确，采样保证合规和违规案例分布大致平衡。

4.2 推理数据集构建

CFLUE问题推理生成：将CFLUE选择题转换为开放式问题。

利用DeepSeek-R1为样本生成推理链和预测答案，再用GPT4o验证，满足条件的作为有效推理样本，否则重试或作为非推理样本（图3）。

FinQA问题推理生成：FinQA的问答对已是开放式格式，采用与CFLUE开放式问题相同的推理生成流程，得到推理增强数据集和非推理数据集。

CCC对话推理生成：基于合规指南开发工作流，使用基于大语言模型的智能体为CCC对话生成中间推理链和答案，若最终答案与正确答案匹配，用GPT4o合并中间推理链得到最终统一推理链，否则重试（图1）。

4.3 模型训练

监督微调学习推理：利用推理数据集对大语言模型进行微调，让模型学习生成推理链和最终答案（图2）。

强化学习提升推理：采用GRPO算法，进行强化学习，通过格式奖励确保输出结构合理，通过准确率奖励促进答案正确。

实验结果

总体上，融入推理的模型通常优于非推理模型。

在三个金融测试集上，点金R1模型显著超越基础模型，点金R132B在这些任务上取得最高准确率。

在两个通用领域测试集上，点金R1模型相比基础模型也有性能提升，但由于训练未涉及通用领域推理数据集，其性能仍低于更大参数规模或在通用推理数据上微调的模型（性能对比见表3）。

讨论

强化学习的影响：监督微调显著提升模型性能，强化学习在除FinQA外的数据集上进一步提升性能，推测FinQA的例外可能是因为强化学习使用的实例为中文，而FinQA为英文（表4）。

监督微调中不同数据集的影响：CFLUE对模型性能影响最大，单独使用CFLUE能显著提升性能，结合多个数据集进行监督微调可获得最佳整体性能（表5）。

不同系统在CCC上的影响：基于多智能体的大语言模型系统可提高CCC任务的准确率，但成本较高。

点金R17B和点金R132B模型仅通过单次API调用就达到了可比甚至更优的性能（表6）。

结论

本文提出点金R1，这是一个用于金融领域大语言模型的推理增强框架。

该框架结合结构化监督和强化学习算法（GRPO），在复杂金融和合规相关任务上提升了模型性能。

通过在多种基准测试和真实世界合规系统中的实验，证明了推理感知训练显著提高了准确性和可解释性。

未来工作将探索替代强化学习策略，如细粒度奖励塑造和分层策略学习，还计划融入工具增强推理，使模型在推理时能动态调用外部工具，提高在高风险金融应用中的精度和稳健性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-29

AI+合同审查落地分享（下-1- 合同智能审查）

2025-07-29

AI 应用开发，还需要意图识别吗？

2025-07-29

一键切换不同的 Claude Code API

2025-07-29

一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的概念和联系

2025-07-29

腾讯的IDE codeBuddy体验来了，说点自己的感受。

2025-07-29

突发：GPT-5下周发布

2025-07-29

WAIC 2025 观察：大模型进入“效率与场景”决胜期

2025-07-29

爆火了大半年，Agent 到底能干好多少活 | WAIC 特别策划

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

AIGC合规落地全景图 | 如何做好AIGC数据合规

2025-06-07

精|知识探索新范式：深度研究Deep Research智能体全面综述，系统、方法与应用

2025-06-21

别再被MCP协议绕晕！一文搞懂连接流程与核心架构

2025-06-12

2025-05-20

大家都在问

AI 应用开发，还需要意图识别吗？

2025-07-29

AI还有哪些机会？你是否适合切入？

2025-07-29

Cursor Meetup 杭州站分享实录：小团队如何用 AI 撑起万级日活产品？

2025-07-28

独家｜对话夸克AI眼镜宋刚：如何把整个阿里巴巴塞进一副眼镜里？

2025-07-27

如何用 AI 翻译实现文档多语言支持的周级敏捷响应？

2025-07-27

面向 AI Agent 的搜索服务，小宿科技有机会成为百亿美金的新巨头吗？

2025-07-25

AI 基础知识从 0.3 到 0.4——如何选对深度学习模型？

2025-07-24

任务紧急，CodeBuddy是如何成为“第二双手”的？

2025-07-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB