微信扫码
添加专属顾问
我要投稿
金融行业智能化转型的前沿探索,知识图谱与大模型的深度融合。 核心内容: 1. 金融智能化产品落地的关键难题与解决方案 2. 大模型技术在金融领域的新应用与挑战 3. 金融知识图谱平台的构建与功能演进
导读 恒生作为一家专注于助力金融领域客户实现智能化产品落地的服务机构,积累了丰富的产业实践经验。在协助企业落地智能化产品的过程中,我们遭遇了一系列关键难题,包括但不限于性价比、准确率等核心问题。同时,随着技术的快速演进,自 2019 年以来,特别是大模型兴起之后,金融知识图谱领域也出现了新的发展范式。在此,我们将基于实际案例,深入分享在实践过程中所积累的宝贵经验,同时对新范式是否会替代知识图谱,以及大模型如何助力解决知识图谱先前面临的问题展开探讨。
1. 金融场景的困局与破局
2. 大模型技术带来的新范式
3. 产品功能与设计的演进
4. 落地挑战与未来变化
01
金融场景的困局与破局
1. 聚焦金融+AI 领域
恒生知识图谱团队在过往实践中,成功搭建了如下几类重要应用场景:
证券交易行为画像:该场景旨在通过股票与债券交易行为构建知识图谱,实现对相关机构的交易行为的精准刻画。恒生凭借与众多交易所级别金融机构的紧密合作,深入洞悉金融行业交易行为,此外还引入诸如产业链、舆情等信息,在此基础上构建了证券交易行为画像。其中的挑战在于,图谱本身并非一种对时间序列数据敏感的工具,而证券交易行为的场景往往需要对过往交易数据进行加工。在大模型兴起后,我们对这类场景进行了优化。
投研投顾:即基于产业链上下游进行产业分析与传导。主要聚焦于国内权益市场,特别是债券违约预警与发现的场景。
信用分析:基于企业图谱、产业链图谱进行多层事件风险传导、渗透评估和风险影响面估计。如两年前恒大违约事件,在此之前我们已经基于图谱进行了事件的发现,并对违约可能影响的金融机构,以及后续可能衍生的行为进行了分析与预测。信用分析工作的核心就在于解决此类重大风险事件的前瞻性评估与连锁反应预测问题。
反洗钱:即基于反洗钱报送的高风险用户进行多跳关联。当前国内数据不够完善,证券基金领域相对于银行领域而言比较落后,机构之间缺乏数据共享。当前主要在高风险客户应用知识图谱。中国人民银行反洗钱交易中心要求各机构上报高风险用户,在一定领域内可以共享,如何利用上述信息开展多跳关联是我们的关注重点。
2. 金融知识图谱平台
基于上述场景,我们构建了金融知识图谱平台。该平台与常规图谱产品的主要差别点在于:
恒生并不涉足底层图数据库存储层研发,而是致力于兼容主流图数据库厂商,如为用户提供 D2R(数据转关系)工具,用于快速将结构化数据转化为图数据并完成导入。同时,还提供定时任务工具与任务调度框架等。
聚焦不同金融场景,如事件传导分析、股权穿透、反洗钱等,沉淀出插件类产品或基础类应用,提供给金融机构,作为底层技术平台与上层应用之间的技术中间件。我们提供了底层存储、缓存、ES 检索、图计算的常用算法、图谱实体关系标签与相关参数,以及数据可视化、实体关系深度分析等工具和方案。
这是曾经的一个案例——铜掌柜暴雷事件,通过事件影响传导,针对该事件对产业链上下游相关系企业以及股权关系关联企业可能产生的影响进行了定量分析。
3. 金融场景的困局与破局
金融知识图谱面临诸多问题,从 AI 产品经理角度来看,困局主要在以下几个方面:
用户风险厌恶性高,可控性要求高
金融机构用户对风险的厌恶程度高,虽追求业务智能化,但当智能化表现超出其理解时,往往会质疑结果。若智能化分析与用户认知相悖,产品经理需加以引导。因此,图谱、机器学习等智能化应用中,可解释性与传导逻辑比结果更关键。
演绎推理往往比归纳推理更受业内认可。例如在新冠疫情期间,要分析其对金融资产的影响,业务人员会按照之前 SARS 的情况进行推理,尽管 SARS 造成的影响范围与新冠并不一样。归纳推理数据不够且可解释性不足,给推理结果带来了挑战。
规则逻辑的局限性
在方案落地进程中,我们期望融入更多金融知识。然而,金融知识的逻辑梳理、维护及更新工作,投入产出比极低。实际操作里,既没人愿意承担这项工作,维护质量也难以保证。大模型的出现,有望在一定程度上弥补这一短板。另外,由于不同机构、不同行业、不同规模,乃至同一金融机构的不同业务,对金融知识的理解各不相同,规则存在极大局限性,所以不存在通用的完美解决方案。当下,我们认为性价比最高的方案当属 DeepSearch 等,这类面向 AI 的优化搜索方式,能更好地感知外部世界,也是未来方案落地更合理的切入点。
数据表示的局限性
知识图谱的核心是三元组,是一种对已有知识的压缩。例如,同样是债券交易,但交易目的不同,如资产配置或短期套利,不同目的会有不同的预测和传导风险,而图谱三元组难以记录这些属性,会导致大量信息损失,进而致使图谱在推理过程中暴露出局限性。
上述问题导致金融知识图谱产品愈发偏向于另外一种规则引擎。
02
大模型技术带来的新范式
1. 新范式:KG+LLM 的一些方向
大模型的兴起为知识图谱带来了新的契机。
LLM 辅助图谱构建
在知识图谱的构建、知识表示、推理及运用过程中,大模型相较于传统自然语言处理(NLP)方法展现出更高的性价比。借助大模型的提示(prompt)功能,能够高效完成实体关系抽取任务,已实现对传统 NLP 算法的替代。不仅如此,大模型还具备挖掘隐含知识的能力,即便是那些处于长尾分布的小众、低频知识,也能精准发现 。
LLM 辅助图谱推理
其一,利用大模型可以实现知识的动态更新,尤其是对推理逻辑的实时优化;其二,演绎推理可有效填补因数据局限性而导致的归纳推理的不足。
基于图谱技术的 RAG
GraphRAG/LightGraphRAG,借助图结构可增强对复杂关系的建模和推理能力,但由于性价比较低尚难以在金融领域普及。KAG 通过结构化图谱与知识推理方式,可以让 LLM 生成符合特定知识结构和逻辑的内容。Think-on-Graph,通过识别与问题相关实体,检索相关三元组进行探索推理,生成多个推理路径,直至收集到足够信息回答问题或达到最大深度。
尽管三个方向都有尝试,但目前比较成熟的是前两种方式。
2. 质疑
陆奇老师层提出,知识图谱真的不行。
对此我们也展开过相关讨论。
用知识图谱做大模型,是不是马拉火车?在 2020 年前,普遍认为图谱技术会引领 AI 发展,但现在人们则质疑 LLM 是否一定要套图谱的外壳。
03
产品功能与设计的演进
AI 或大模型在金融领域落地,需要考虑三个核心因素:准确率、成本、速度。
以如下三个问题为例,针对不同场景,大模型和知识图谱各有其优势。
问题 1:蚂蚁和恒生电子的关系是什么?这种问题使用纯 LLM 的方式更优,更新图谱性价比不高。大模型基于外部信息检索的结果更符合业务人员认知,且可以避免知识更新不及时带来的问题。
问题 2:反洗钱系统中张三和李四的关系是什么?在这个问题中,张三和李四代表行业专有名词或公司内部数据。针对这种专业知识的多跳关系搜索,采用图谱方案更优,无论速度还是专业性与精确度上都更具优势。
问题 3:机构 A 和 XXX 债券的关系是什么?或者机构 A、机构 B 频繁买入 XXX 债券说明了什么?这种既涉及通用知识又涉及私域知识的情况下,大模型和图谱结合的方式则更为有效。
知识专业性越强、私域化和时效性要求越高,同时企业图谱完备度越高时,更偏向采用图谱产品;反之,则更偏向选择大模型。当前,大模型的适用领域持续扩展,而知识图谱的应用空间正在被不断压缩。
基于上述思考,我们对产品做了一些改变,上图中橙色部分,如图数据库、图谱的查询分析算法等还是以图谱为主;红色部分,如信息抽取、三元组表示和图谱构建等,则转向 LLM 为主;蓝色部分,如知识推理等,根据场景与客户情况进行区分。
04
落地挑战与未来变化
1. 落地挑战
有得必有失
三元组本身就是知识的有损压缩,并不是所有内容都适合进图谱。GraphRAG 和 LightGraphRAG 如果能够将适合的内容抽进图谱,其落地才能更好地推广。
图谱知识的可维护性
图谱是没有时间维度的,金融领域的数据如何更快更好地进行维护是一大挑战。
ChatBot 的挑战
在 ChatBot 的应用场景中,面临的挑战之一是如何精准判断:哪些问题需要借助 KG 能力来解答,哪些问题则无需 KG 便可处理。
是否有银弹
金融业务和人远远比IT解决方案复杂,因此没有统一的解决方案可以解决所有问题。
KG 与 LLM 更深地融合
利用图谱辅助 LLM 训练,以及基于图学习的 Adapter 可训练结构等,是值得探索的领域。
2. 未来变化
图谱回归到自己更适合的领域
图谱未来可能作为智能体的一部分,与 API、结构化数据库、RAG 结合,成为 Agent 长短记忆体和 Tools 的一部分,在合适的情况下让大模型调用,让图谱回归到自己更适合的领域。
AI 应用一定是 ChatBot 吗?
当前,大模型应用更多以问答形式呈现。而在 2B 领域的非即时性任务中,知识图谱可以发挥重要作用。因此,探索非 ChatBot 形式的应用,能够更好地释放知识图谱的价值。
特定的私域数据场景依旧需要图谱
多跳计算、社团分析、最短路、可控传导等领域,仍然要依靠知识图谱。
让子弹飞一会儿
所谓的统一的框架、解决方案还在路上。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-17
2025-01-02
2024-08-13
2025-01-03
2024-08-27
2024-07-11
2024-06-24
2024-07-13
2024-07-12
2024-06-10
2025-04-20
2025-04-15
2025-04-09
2025-03-29
2025-02-13
2025-01-14
2025-01-10
2025-01-06