支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


金融大模型推理能力瓶颈如何突破?通义点金提出 DianJin-R1 框架,点石成金!

发布日期:2025-04-28 13:11:56 浏览次数: 1580 作者:AcademicDaily
推荐语

金融大模型推理能力瓶颈如何突破?通义点金提出 DianJin-R1 框架,点石成金!

核心内容:
1. 金融大模型在复杂推理任务中的挑战与瓶颈
2. DianJin-R1框架:定制化数据集、结构化推理训练与强化学习优化
3. DianJin-R1模型在金融任务中的性能表现与实际应用价值

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

在金融领域,大模型的 “聪明程度” 直接关乎风险控制、合规审查等核心场景的落地效果。

但面对复杂的财务报表计算、监管规则匹配,甚至客服对话中的合规性检测,传统大模型常常 “卡壳”—— 要么算错数,要么漏掉关键规则,更有人工智能团队为了提升准确性,不得不依赖多轮对话的 “代理接力”,导致效率大打折扣。

有没有一种方法,能让大模型既 “算得准” 又 “想得全”,还能 “一步到位” 解决复杂推理?

阿里通义点金团队最新研究成果 DianJin-R1 给出了答案:通过定制化数据集、结构化推理训练和强化学习优化,其单轮推理性能在真实金融场景中超越了需要多次调用的多代理系统,为金融 AI 落地打开了新想象空间。







【论文链接】https://arxiv.org/pdf/2504.15716v1

源码见文末



1


摘要


在金融领域,有效的推理仍然是LLMs面临的核心挑战,该领域的任务通常需要特定领域的知识、精确的数值计算以及严格遵守合规规则。
本文提出点金R1,这是一个推理增强框架,旨在通过推理增强监督和强化学习来应对这些挑战。
该方法的核心是点金R1数据,这是一个由CFLUE、FinQA和专有合规语料库构建的高质量数据集,它将各种金融推理场景与经过验证的注释相结合。
本文的模型点金R17B和点金R132B,是从Qwen2.57B指令模型和Qwen2.532B指令模型微调而来,采用结构化格式生成推理步骤和最终答案。
为了进一步优化推理质量,应用了GRPO强化学习方法。
结合了双重奖励信号:一个用于鼓励结构化输出,另一个用于奖励答案的正确性。
在五个基准测试中评估了模型:三个金融数据集以及两个通用推理基准。
实验结果表明,点金R1模型始终优于非推理模型,尤其是在复杂的金融任务上。
此外,在真实世界的CCC数据集上,本文的单次调用推理模型的性能与需要更高计算成本的多智能体系统相当,甚至超越了它们。
这些发现证明了点金R1通过结构化监督和奖励对齐学习来增强金融推理的有效性,为实际应用提供了一种可扩展的实用解决方案。




2


背景


LLMs的发展引发了人们对提升其推理能力的兴趣,已有研究表明对推理过程进行显式建模可提升复杂任务的性能。
然而,金融领域的推理任务因需要特定知识、精确数值推理和严格合规,对大语言模型来说仍极具挑战,需要专门的推理策略来处理结构化金融信息和开放式问题求解。
在此背景下,提出点金R1,旨在通过推理增强监督和强化学习提升大语言模型在金融推理任务上的表现。



3


贡献


  1. 构建高质量推理数据集点金R1 Data,结合多个数据源并通过验证确保数据质量,为模型训练提供支持。

  2. 提出基于Qwen2.5系列模型微调的点金R17B和点金R132B模型,并使用结构化输出格式生成推理过程和答案。

  3. 应用GRPO算法,通过双重奖励信号进一步提升模型推理质量。


4


点金R1数据架构


4.1 数据来源

CFLUE:一个开源中文金融领域基准数据集,通过长度、难度和歧义性三步过滤,选取高质量选择题,许多题配有详细解释,作为有价值的推理注释。

FinQA:开源英文基准数据集,包含需对财务报告进行数值推理的问答对,经过与CFLUE相同的长度和难度过滤,得到高质量子集。

CCC:内部数据集,用于检测中国金融客服对话中的合规违规情况,数据来自实际客服操作的在线质检系统,经过人工审核确保标注准确,采样保证合规和违规案例分布大致平衡。

4.2 推理数据集构建

CFLUE问题推理生成:将CFLUE选择题转换为开放式问题。

利用DeepSeek-R1为样本生成推理链和预测答案,再用GPT4o验证,满足条件的作为有效推理样本,否则重试或作为非推理样本(图3)。

FinQA问题推理生成:FinQA的问答对已是开放式格式,采用与CFLUE开放式问题相同的推理生成流程,得到推理增强数据集和非推理数据集。

CCC对话推理生成:基于合规指南开发工作流,使用基于大语言模型的智能体为CCC对话生成中间推理链和答案,若最终答案与正确答案匹配,用GPT4o合并中间推理链得到最终统一推理链,否则重试(图1)。

4.3 模型训练

监督微调学习推理:利用推理数据集对大语言模型进行微调,让模型学习生成推理链和最终答案(图2)。

强化学习提升推理:采用GRPO算法,进行强化学习,通过格式奖励确保输出结构合理,通过准确率奖励促进答案正确。



5


实验结果


总体上,融入推理的模型通常优于非推理模型。

在三个金融测试集上,点金R1模型显著超越基础模型,点金R132B在这些任务上取得最高准确率。

在两个通用领域测试集上,点金R1模型相比基础模型也有性能提升,但由于训练未涉及通用领域推理数据集,其性能仍低于更大参数规模或在通用推理数据上微调的模型(性能对比见表3)。

讨论

强化学习的影响:监督微调显著提升模型性能,强化学习在除FinQA外的数据集上进一步提升性能,推测FinQA的例外可能是因为强化学习使用的实例为中文,而FinQA为英文(表4)。

监督微调中不同数据集的影响:CFLUE对模型性能影响最大,单独使用CFLUE能显著提升性能,结合多个数据集进行监督微调可获得最佳整体性能(表5)。

不同系统在CCC上的影响:基于多智能体的大语言模型系统可提高CCC任务的准确率,但成本较高。

点金R17B和点金R132B模型仅通过单次API调用就达到了可比甚至更优的性能(表6)。


6


结论


本文提出点金R1,这是一个用于金融领域大语言模型的推理增强框架。
该框架结合结构化监督和强化学习算法(GRPO),在复杂金融和合规相关任务上提升了模型性能。
通过在多种基准测试和真实世界合规系统中的实验,证明了推理感知训练显著提高了准确性和可解释性。
未来工作将探索替代强化学习策略,如细粒度奖励塑造和分层策略学习,还计划融入工具增强推理,使模型在推理时能动态调用外部工具,提高在高风险金融应用中的精度和稳健性。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询