我要投稿

金融大模型的“垂直突围”：蚂蚁数科打造更懂金融的行业大脑

发布日期：2025-08-02 08:21:05 浏览次数： 2038

作者：金融时报

微信搜一搜，关注“金融时报”

上海退休教师张阿姨最近发现，查询养老金明细不再需要戴着老花镜在手机银行里层层点击了。

“我这个月养老金到账了吗？”对着手机屏幕问道，很快，屏幕上的AI助手就用口语化的中文列出了到账时间、金额明细。这个让张阿姨赞不绝口的功能，是蚂蚁数科助力上海某家银行打造的AI手机银行，这也是大模型在金融落地的最新应用。

当前，大模型在金融行业的应用已并非新鲜事。尽管人们还在为AI模型的市场预测准确率争论不休，但越来越多的金融机构已经在用专业大模型重构普通人的金融生活。这场静默革命的背后，是金融行业与AI技术的深度碰撞——当万亿级资金流转需要精准滴灌实体土壤，当繁杂的监管规则遇上服务小微企业的迫切需求，当“金融‘五篇大文章’”的时代命题呼唤数字金融的创新突破，智能算法便有了用武之地，一个专为金融业量身打造的大模型时代正在加速到来。

从“答非所问”到“精准服务”：金融业的AI焦虑与突围

“我们曾试过用通用大模型做信贷审批辅助，结果它把‘信用卡套现’识别成了‘正常消费’。”某股份制银行科技部负责人回忆起去年的一次尝试仍心有余悸。这个插曲道出了金融业拥抱AI时的普遍困境：通用大模型就像“门外汉”，虽能说会道，却不懂金融的“行话”与规矩。

金融行业的特殊性让这场智能化转型布满暗礁。在银行柜台，一份贷款申请需要核查征信、收入证明、抵押物估值等种类繁多的文件，涉及《中华人民共和国商业银行法》等十多部法规；在证券投研领域，分析师需要从宏观经济数据、行业政策、公司财报等海量信息中提炼投资逻辑，任何一个数据误读都可能导致千万级乃至更大体量的损失；在保险理赔场景，定损员要对着模糊的事故照片，结合保险条款、车型配件价格甚至当地天气数据做出判断——这些工作不仅需要专业知识，更容不得半点差错。

通用大模型在这里频频“掉链子”。中国人民银行科技司司长李伟曾撰文指出，“当前，通用基础大模型缺乏对金融专业知识的系统掌握，未经过金融业务的实战训练，距离金融应用存在‘知识鸿沟’，直接应用于专业性强的复杂金融场景往往幻觉率较高、难以满足业务需要。”

上海财经大学推出的国内金融领域大模型评估结果也印证了这一点。据介绍，参评模型在金融学术知识方面的表现整体优异，但在金融严谨性、金融行业理解等适配复杂场景的能力上表现各异。

安全合规这条红线更让金融机构如履薄冰。金融数据涉及个人隐私与资金安全，《个人信息保护法》《金融数据安全管理办法》等法规对数据使用有严苛要求。通用大模型训练数据来源复杂，生成内容可能包含敏感信息，一旦在服务中出现问题，后果不堪设想。更棘手的是，金融政策月月更新，通用模型如未实时跟进这些动态，很容易给出“过时建议”。

当张阿姨们期待更便捷的金融服务，当金融机构渴望用AI提升效率，一个能读懂金融术语、吃透监管规则、跟上市场变化的专业大模型，成了行业突围的关键。

“专为金融而生的大模型来了”

面对这些行业挑战，7月28日，在世界人工智能大会论坛上，蚂蚁数科正式发布了专为金融业应用打造的金融推理大模型Agentar-Fin-R1。

“构建专业的金融大模型是推进金融与AI深度融合的必然路径，未来，金融大模型的应用深度将成为金融机构竞争力的关键要素。”蚂蚁数科CEO赵闻飙在演讲中说。

在上海陆家嘴的蚂蚁S中心，演示者指着大屏幕的一串数据和图表介绍：FinEval 1.0评分87.70、FinanceIQ评分86.79、Finova评分69.93——这是Agentar-Fin-R1在权威评测中的成绩单，显著领先目前主流开源基础模型及金融大模型。特别是在面向实际金融场景应用的大模型评测基准Finova中，Agentar-Fin-R1-32B达到最高分，超越了更大规模的通用模型。这一强劲表现凸显了领域专业化对金融任务的显著优势，而通用模型在此方面表现不足。

“要让行业认可大模型的能力，得有把公认的标尺。Finova评测基准，就像金融大模型的‘能力体检表’，专门考察模型在实际场景中的真本事。”有业内人士解释，和传统评测不同，Finova不只看“知识点记忆”，更看重“解决实际问题的能力”——自主执行任务的智能体能力、复杂分析任务的推理能力以及安全合规能力。

Finova由蚂蚁数科联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构联合推出，重点在考察大模型在实际金融场景中的能力。

比如在智能投研测试中，模型需要分析一份上市公司财报、三份行业研报和最新政策，最终给出投资建议，整个过程要像真人分析师一样有理有据；在合规测试中，它得准确识别出贷款合同中的潜在合规风险，并引用具体法规条款说明理由。正是这些和实际场景十分贴近的评测中，Agentar-Fin-R1以优秀的成绩超越了更大参数规模的通用模型，证明了专业大模型的场景优势。

据介绍，目前Finova评测基准已全面开源。就像把“考试大纲”公之于众，行业都可以按这个标准训练和优化模型，推动行业共同提升大模型在金融领域的应用水平。“金融大模型的进步不该靠闭门造车。”蚂蚁数科AI技术负责人说。

给大模型开“金融特训班”：蚂蚁数科的三大破局之道

能让大模型在金融“考试”中脱颖而出，秘诀藏在蚂蚁数科为它量身打造的特训体系里。

训练金融大模型，首先得有本好“教材”。蚂蚁数科的工程师们整理出覆盖银行、证券、保险、基金、信托的全场景金融任务体系，就像给大模型制定了从金融入门到行业专家的课程表。这套体系覆盖了多个细分领域，每个领域又拆解出具体任务。团队从千亿级金融数据中筛选出优质素材：证券的研报分析，保险的理赔案例、基金的产品说明书，再通过 “可信数据合成技术”——保留业务逻辑和数据特征，剔除敏感信息，既保证训练效果，又确保安全合规。

更关键的是给大模型“开小灶”。金融问题往往需要层层推理，就像解数学题要写步骤。团队联合金融专家打造了“长思维链（CoT）”训练数据，把专家分析问题的过程一条条记下来——让大模型跟着专家学思路，处理复杂任务的能力自然水涨船高。这就是为什么Agentar-Fin-R1能做到“天生懂金融”。

光有好教材还不够，得有科学的训练方法。传统模型训练像“大锅饭”，所有数据平均用力；而蚂蚁数科的加权训练算法更像“个性化辅导”——自动识别模型的薄弱环节，重点加餐。

比如在测试中发现模型对“保险理赔条款解读”正确率较低，系统会自动增加这类数据的训练权重，同时生成针对性的合成数据，就像老师给学生集中讲解易错知识点。这种方法不仅让模型在金融能力上突飞猛进，还带来了成本优势：企业后续想用模型处理新业务，需要的微调数据量和算力消耗大幅减少。对中小银行来说，这意味着用更低成本就能享受到顶尖AI能力。

更聪明的是，这个模型还能终身学习。金融政策变了怎么办？市场出了新动态怎么接？工程师们给模型装了更新模块，自动抓取最新政策文件、市场报告，通过轻量化训练快速吸收新知识。“时刻学习。”一位从业人士笑着比喻，就像金融从业者要参加继续教育，大模型也能通过“在职培训”保持专业能力与时俱进。

金融大模型走入真实世界

除了帮张阿姨查养老金，不久的未来，Agentar-Fin-R1还能帮助金融机构给年轻用户解释“LPR调整对房贷的影响”，给投资者推荐“最优投资策略”。以往理财顾问要花1小时分析一位客户的风险偏好、资产状况和市场动态，现在借助智能体助手，这个过程能缩短到几分钟，而且模型还能实时更新市场数据，给出更及时的调整建议。

更多的行业变革正在悄然发生。在保险行业的技术革新浪潮中，蚂蚁数科与大地保险携手打造的“AI大模型中台”，就像为保险业量身定制的智能引擎，开启了行业技术应用的全新篇章。

“这是保险业内首次将大模型、数据、算力和框架结合。”一位行业人士解释，这个中台如同一个共享的智能宝库，实现了“资源可共享、模型可复用、服务可编排、应用更灵活”的美好愿景。里面集成的专业大模型应用矩阵，都是经过规模化实践验证的“老兵”，让高深的大模型技术栈能与保险行业那些特定的垂直场景无缝对接，就像钥匙精准插入锁孔般顺畅。

以往模型应用部署时，人工介入和反复适配的繁琐流程曾是行业痛点。但有了这个中台后，大地保险的模型应用部署仿佛进入了“自动驾驶”模式，全程无需人工插手，效率一下提升了80%。如今，这个智能平台已经成为内部创新的孵化器，支撑着70多个线上智能应用。在业务高峰时，一天之内的对话量就超过27万次，大模型的准确率和智能体应用的问答效果都提升了近30%，让保险服务的智能体验迈上新台阶。

这些变化的背后，是蚂蚁数科历经金融级场景验证的智能体服务平台Agentar，覆盖智能算力、数据及模型层、行业大模型以及上层应用全链路。目前，已经推出超百个细分金融行业场景的智能体解决方案，再到覆盖100%国有银行、60%地方商业银行的服务网络，一个从产品研发到行业落地的完整链条已经形成，这个生态让金融机构具有轻松接入AI的能力。

“通过我们的产品和服务，我们致力于为金融机构的每个业务环节打造可信可靠、具备自主决策能力‘数智员工’，推动金融服务迈向真正千人千面的智慧化时代。”蚂蚁数科CTO王维表示。当技术持续进化，当生态不断完善，我们或许不用多久就能看到：金融服务不再是冰冷的条款和复杂的流程，而是像张阿姨和AI助手聊天那样自然、简单。