微信扫码
添加专属顾问
我要投稿
金融大模型推理能力瓶颈如何突破?通义点金提出 DianJin-R1 框架,点石成金! 核心内容: 1. 金融大模型在复杂推理任务中的挑战与瓶颈 2. DianJin-R1框架:定制化数据集、结构化推理训练与强化学习优化 3. DianJin-R1模型在金融任务中的性能表现与实际应用价值
在金融领域,大模型的 “聪明程度” 直接关乎风险控制、合规审查等核心场景的落地效果。
但面对复杂的财务报表计算、监管规则匹配,甚至客服对话中的合规性检测,传统大模型常常 “卡壳”—— 要么算错数,要么漏掉关键规则,更有人工智能团队为了提升准确性,不得不依赖多轮对话的 “代理接力”,导致效率大打折扣。
有没有一种方法,能让大模型既 “算得准” 又 “想得全”,还能 “一步到位” 解决复杂推理?
阿里通义点金团队最新研究成果 DianJin-R1 给出了答案:通过定制化数据集、结构化推理训练和强化学习优化,其单轮推理性能在真实金融场景中超越了需要多次调用的多代理系统,为金融 AI 落地打开了新想象空间。
【论文链接】https://arxiv.org/pdf/2504.15716v1
源码见文末
摘要
背景
贡献
构建高质量推理数据集点金R1 Data,结合多个数据源并通过验证确保数据质量,为模型训练提供支持。
提出基于Qwen2.5系列模型微调的点金R17B和点金R132B模型,并使用结构化输出格式生成推理过程和答案。
应用GRPO算法,通过双重奖励信号进一步提升模型推理质量。
点金R1数据架构
4.1 数据来源
CFLUE:一个开源中文金融领域基准数据集,通过长度、难度和歧义性三步过滤,选取高质量选择题,许多题配有详细解释,作为有价值的推理注释。
FinQA:开源英文基准数据集,包含需对财务报告进行数值推理的问答对,经过与CFLUE相同的长度和难度过滤,得到高质量子集。
CCC:内部数据集,用于检测中国金融客服对话中的合规违规情况,数据来自实际客服操作的在线质检系统,经过人工审核确保标注准确,采样保证合规和违规案例分布大致平衡。
4.2 推理数据集构建
CFLUE问题推理生成:将CFLUE选择题转换为开放式问题。
利用DeepSeek-R1为样本生成推理链和预测答案,再用GPT4o验证,满足条件的作为有效推理样本,否则重试或作为非推理样本(图3)。
FinQA问题推理生成:FinQA的问答对已是开放式格式,采用与CFLUE开放式问题相同的推理生成流程,得到推理增强数据集和非推理数据集。
CCC对话推理生成:基于合规指南开发工作流,使用基于大语言模型的智能体为CCC对话生成中间推理链和答案,若最终答案与正确答案匹配,用GPT4o合并中间推理链得到最终统一推理链,否则重试(图1)。
4.3 模型训练
监督微调学习推理:利用推理数据集对大语言模型进行微调,让模型学习生成推理链和最终答案(图2)。
强化学习提升推理:采用GRPO算法,进行强化学习,通过格式奖励确保输出结构合理,通过准确率奖励促进答案正确。
实验结果
总体上,融入推理的模型通常优于非推理模型。
在三个金融测试集上,点金R1模型显著超越基础模型,点金R132B在这些任务上取得最高准确率。
在两个通用领域测试集上,点金R1模型相比基础模型也有性能提升,但由于训练未涉及通用领域推理数据集,其性能仍低于更大参数规模或在通用推理数据上微调的模型(性能对比见表3)。
讨论
强化学习的影响:监督微调显著提升模型性能,强化学习在除FinQA外的数据集上进一步提升性能,推测FinQA的例外可能是因为强化学习使用的实例为中文,而FinQA为英文(表4)。
监督微调中不同数据集的影响:CFLUE对模型性能影响最大,单独使用CFLUE能显著提升性能,结合多个数据集进行监督微调可获得最佳整体性能(表5)。
不同系统在CCC上的影响:基于多智能体的大语言模型系统可提高CCC任务的准确率,但成本较高。
点金R17B和点金R132B模型仅通过单次API调用就达到了可比甚至更优的性能(表6)。
结论
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28