微信扫码
添加专属顾问
我要投稿
蚂蚁数科打造的金融大模型,让AI真正读懂金融术语,为行业带来精准智能服务。核心内容: 1. 金融大模型在养老金查询等场景的实际应用案例 2. 通用大模型在金融领域的局限性与行业痛点 3. 蚂蚁数科专业金融大模型的技术突破与行业价值
上海退休教师张阿姨最近发现,查询养老金明细不再需要戴着老花镜在手机银行里层层点击了。
“我这个月养老金到账了吗?”对着手机屏幕问道,很快,屏幕上的AI助手就用口语化的中文列出了到账时间、金额明细。这个让张阿姨赞不绝口的功能,是蚂蚁数科助力上海某家银行打造的AI手机银行,这也是大模型在金融落地的最新应用。当前,大模型在金融行业的应用已并非新鲜事。尽管人们还在为AI模型的市场预测准确率争论不休,但越来越多的金融机构已经在用专业大模型重构普通人的金融生活。这场静默革命的背后,是金融行业与AI技术的深度碰撞——当万亿级资金流转需要精准滴灌实体土壤,当繁杂的监管规则遇上服务小微企业的迫切需求,当“金融‘五篇大文章’”的时代命题呼唤数字金融的创新突破,智能算法便有了用武之地,一个专为金融业量身打造的大模型时代正在加速到来。
从“答非所问”到“精准服务”:金融业的AI焦虑与突围
“我们曾试过用通用大模型做信贷审批辅助,结果它把‘信用卡套现’识别成了‘正常消费’。”某股份制银行科技部负责人回忆起去年的一次尝试仍心有余悸。这个插曲道出了金融业拥抱AI时的普遍困境:通用大模型就像“门外汉”,虽能说会道,却不懂金融的“行话”与规矩。
金融行业的特殊性让这场智能化转型布满暗礁。在银行柜台,一份贷款申请需要核查征信、收入证明、抵押物估值等种类繁多的文件,涉及《中华人民共和国商业银行法》等十多部法规;在证券投研领域,分析师需要从宏观经济数据、行业政策、公司财报等海量信息中提炼投资逻辑,任何一个数据误读都可能导致千万级乃至更大体量的损失;在保险理赔场景,定损员要对着模糊的事故照片,结合保险条款、车型配件价格甚至当地天气数据做出判断——这些工作不仅需要专业知识,更容不得半点差错。
通用大模型在这里频频“掉链子”。中国人民银行科技司司长李伟曾撰文指出,“当前,通用基础大模型缺乏对金融专业知识的系统掌握,未经过金融业务的实战训练,距离金融应用存在‘知识鸿沟’,直接应用于专业性强的复杂金融场景往往幻觉率较高、难以满足业务需要。”
上海财经大学推出的国内金融领域大模型评估结果也印证了这一点。据介绍,参评模型在金融学术知识方面的表现整体优异,但在金融严谨性、金融行业理解等适配复杂场景的能力上表现各异。
安全合规这条红线更让金融机构如履薄冰。金融数据涉及个人隐私与资金安全,《个人信息保护法》《金融数据安全管理办法》等法规对数据使用有严苛要求。通用大模型训练数据来源复杂,生成内容可能包含敏感信息,一旦在服务中出现问题,后果不堪设想。更棘手的是,金融政策月月更新,通用模型如未实时跟进这些动态,很容易给出“过时建议”。
当张阿姨们期待更便捷的金融服务,当金融机构渴望用AI提升效率,一个能读懂金融术语、吃透监管规则、跟上市场变化的专业大模型,成了行业突围的关键。
“专为金融而生的大模型来了”
面对这些行业挑战,7月28日,在世界人工智能大会论坛上,蚂蚁数科正式发布了专为金融业应用打造的金融推理大模型Agentar-Fin-R1。
“构建专业的金融大模型是推进金融与AI深度融合的必然路径,未来,金融大模型的应用深度将成为金融机构竞争力的关键要素。”蚂蚁数科CEO赵闻飙在演讲中说。
在上海陆家嘴的蚂蚁S中心,演示者指着大屏幕的一串数据和图表介绍:FinEval 1.0评分87.70、FinanceIQ评分86.79、Finova评分69.93——这是Agentar-Fin-R1在权威评测中的成绩单,显著领先目前主流开源基础模型及金融大模型。特别是在面向实际金融场景应用的大模型评测基准Finova中,Agentar-Fin-R1-32B达到最高分,超越了更大规模的通用模型。这一强劲表现凸显了领域专业化对金融任务的显著优势,而通用模型在此方面表现不足。
“要让行业认可大模型的能力,得有把公认的标尺。Finova评测基准,就像金融大模型的‘能力体检表’,专门考察模型在实际场景中的真本事。”有业内人士解释,和传统评测不同,Finova不只看“知识点记忆”,更看重“解决实际问题的能力”——自主执行任务的智能体能力、复杂分析任务的推理能力以及安全合规能力。
Finova由蚂蚁数科联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构联合推出,重点在考察大模型在实际金融场景中的能力。
比如在智能投研测试中,模型需要分析一份上市公司财报、三份行业研报和最新政策,最终给出投资建议,整个过程要像真人分析师一样有理有据;在合规测试中,它得准确识别出贷款合同中的潜在合规风险,并引用具体法规条款说明理由。正是这些和实际场景十分贴近的评测中,Agentar-Fin-R1以优秀的成绩超越了更大参数规模的通用模型,证明了专业大模型的场景优势。
据介绍,目前Finova评测基准已全面开源。就像把“考试大纲”公之于众,行业都可以按这个标准训练和优化模型,推动行业共同提升大模型在金融领域的应用水平。“金融大模型的进步不该靠闭门造车。”蚂蚁数科AI技术负责人说。
给大模型开“金融特训班”:蚂蚁数科的三大破局之道
能让大模型在金融“考试”中脱颖而出,秘诀藏在蚂蚁数科为它量身打造的特训体系里。
训练金融大模型,首先得有本好“教材”。蚂蚁数科的工程师们整理出覆盖银行、证券、保险、基金、信托的全场景金融任务体系,就像给大模型制定了从金融入门到行业专家的课程表。这套体系覆盖了多个细分领域,每个领域又拆解出具体任务。团队从千亿级金融数据中筛选出优质素材:证券的研报分析,保险的理赔案例、基金的产品说明书,再通过 “可信数据合成技术”——保留业务逻辑和数据特征,剔除敏感信息,既保证训练效果,又确保安全合规。
更关键的是给大模型“开小灶”。金融问题往往需要层层推理,就像解数学题要写步骤。团队联合金融专家打造了“长思维链(CoT)”训练数据,把专家分析问题的过程一条条记下来——让大模型跟着专家学思路,处理复杂任务的能力自然水涨船高。这就是为什么Agentar-Fin-R1能做到“天生懂金融”。
光有好教材还不够,得有科学的训练方法。传统模型训练像“大锅饭”,所有数据平均用力;而蚂蚁数科的加权训练算法更像“个性化辅导”——自动识别模型的薄弱环节,重点加餐。
比如在测试中发现模型对“保险理赔条款解读”正确率较低,系统会自动增加这类数据的训练权重,同时生成针对性的合成数据,就像老师给学生集中讲解易错知识点。这种方法不仅让模型在金融能力上突飞猛进,还带来了成本优势:企业后续想用模型处理新业务,需要的微调数据量和算力消耗大幅减少。对中小银行来说,这意味着用更低成本就能享受到顶尖AI能力。
更聪明的是,这个模型还能终身学习。金融政策变了怎么办?市场出了新动态怎么接?工程师们给模型装了更新模块,自动抓取最新政策文件、市场报告,通过轻量化训练快速吸收新知识。“时刻学习。”一位从业人士笑着比喻,就像金融从业者要参加继续教育,大模型也能通过“在职培训”保持专业能力与时俱进。
金融大模型走入真实世界
除了帮张阿姨查养老金,不久的未来,Agentar-Fin-R1还能帮助金融机构给年轻用户解释“LPR调整对房贷的影响”,给投资者推荐“最优投资策略”。以往理财顾问要花1小时分析一位客户的风险偏好、资产状况和市场动态,现在借助智能体助手,这个过程能缩短到几分钟,而且模型还能实时更新市场数据,给出更及时的调整建议。
更多的行业变革正在悄然发生。在保险行业的技术革新浪潮中,蚂蚁数科与大地保险携手打造的“AI大模型中台”,就像为保险业量身定制的智能引擎,开启了行业技术应用的全新篇章。
“这是保险业内首次将大模型、数据、算力和框架结合。”一位行业人士解释,这个中台如同一个共享的智能宝库,实现了“资源可共享、模型可复用、服务可编排、应用更灵活”的美好愿景。里面集成的专业大模型应用矩阵,都是经过规模化实践验证的“老兵”,让高深的大模型技术栈能与保险行业那些特定的垂直场景无缝对接,就像钥匙精准插入锁孔般顺畅。
以往模型应用部署时,人工介入和反复适配的繁琐流程曾是行业痛点。但有了这个中台后,大地保险的模型应用部署仿佛进入了“自动驾驶”模式,全程无需人工插手,效率一下提升了80%。如今,这个智能平台已经成为内部创新的孵化器,支撑着70多个线上智能应用。在业务高峰时,一天之内的对话量就超过27万次,大模型的准确率和智能体应用的问答效果都提升了近30%,让保险服务的智能体验迈上新台阶。
这些变化的背后,是蚂蚁数科历经金融级场景验证的智能体服务平台Agentar,覆盖智能算力、数据及模型层、行业大模型以及上层应用全链路。目前,已经推出超百个细分金融行业场景的智能体解决方案,再到覆盖100%国有银行、60%地方商业银行的服务网络,一个从产品研发到行业落地的完整链条已经形成,这个生态让金融机构具有轻松接入AI的能力。
“通过我们的产品和服务,我们致力于为金融机构的每个业务环节打造可信可靠、具备自主决策能力‘数智员工’,推动金融服务迈向真正千人千面的智慧化时代。”蚂蚁数科CTO王维表示。当技术持续进化,当生态不断完善,我们或许不用多久就能看到:金融服务不再是冰冷的条款和复杂的流程,而是像张阿姨和AI助手聊天那样自然、简单。
(数据来源:蚂蚁数科)(署名:木若)
来源:合作方供稿 编辑:云阳 邮箱:fnweb@126.com 广告 关注金融时报公众号 看更多独家新闻资讯
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-02
我把 Agent 的 Token 消耗降了 60%:ADK 多 Agent 架构实践(含关键代码)
2025-08-02
自建个人知识库, RAGflow、Dify、fastGPT、AnythingLLM、Cherry Studio怎么选
2025-08-02
大模型时代的AI Infra内容浅析与趋势思考
2025-08-02
阿里Qwen-MT翻译模型发布: 挑战GPT-4.1,专业术语、领域风格精准拿捏!
2025-08-02
AI开发者必看:深度解析MCP,打造高效LLM应用的秘密武器!
2025-08-02
【深度】企业 AI 落地实践(四):如何构建端到端的 AI 应用观测体系
2025-08-02
Ollama vs vLLM:哪个框架更适合推理?(第二部分)
2025-08-02
刚刚,Anthropic切断OpenAI对Claude的访问权限
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-08-02
2025-08-02
2025-07-31
2025-07-31
2025-07-31
2025-07-30
2025-07-30
2025-07-30