免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

可信 AI 对生产域数据的核心诉求有哪些?

发布日期:2026-01-05 08:31:53 浏览次数: 1549
作者:twt企业IT社区

微信搜一搜,关注“twt企业IT社区”

推荐语

金融行业如何确保AI模型可信?关键在于生产域数据必须满足来源可追溯、类型多样化、质量高标准等核心诉求。

核心内容:
1. 生产域数据对可信AI的四大核心诉求:来源可追溯、类型多样化、质量高标准、时效性精准
2. 不同金融场景(如反诈、信贷审批)对数据时效性的差异化需求
3. 存算分离架构如何优化数据供给机制,满足AI训练与推理需求

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

【面向AI时代的数据中心未来——金融核心系统存算分离的战略必要性共识探讨】· 可信 AI 驱动视角

 背景 


在 AI 与金融场景深度融合的趋势下,依托金融高质量敏感数据消除 AI 模型幻觉,成为复合型架构(生产域 + 汇聚域 + 消费域)金融数据中心的必然选择。生产域作为业务核心与可信 AI 的数据源头,其数据供给质量直接决定了可信 AI 的场景落地。可信 AI 的训练与推理环节,对生产域数据有着多方面核心诉求。在数据来源方面,需确保数据可追溯、合规合法,只有来源可靠,才能为 AI 提供可信基础。数据类型方面,要覆盖多样化的金融场景数据,如交易流水、客户画像、风险评估、日志信息等,满足 AI 对多维度信息分析的需求。数据质量方面,需保证数据准确无误、完整无缺,避免因数据偏差导致 AI 模型决策失误,影响金融业务正常开展。时效性方面,生产域数据需及时更新,确保数据能真实反映市场现状,AI 能基于最新数据进行训练与推理,提升决策的时效性和准确性。明确这些核心诉求,是推动跨域协作的关键前提,能为生产域优化数据供给机制、满足可信 AI 需求提供明确方向,助力金融领域可信 AI 的稳健发展。


议题主持导语

议题主持人:金海波 昆仑银行 数据治理专家、 陈宏 某城商行 AI 算法工程师

当下 AI 与金融深度融合,消除模型幻觉需依托高质量数据供给,复合型金融数据中心成为必然选择。生产域作为业务核心与可信 AI 的数据源头,其数据供给质量决定 AI落地效果。可信 AI 训练与推理对生产域数据有着明确的诉求,涉及来源、类型、质量、时效性。为优化数据供给机制、推动金融可信 AI 发展找准方向,明确这些诉求是跨域协作的关键。twt社区组织多位在金融行业有丰富大模型应用经验的专家,通过投票、深入研讨等多元化的方式,展开议题探讨。

社区投票共识结果分析

本次投票收集了行业用户认为可信 AI 对生产域数据的诉求,包括:时效性、颗粒度、来源、准确性、完整性、一致性,来自 30 多家金融企业的用户参与了投票。

具体投票情况和分析如下:

1. 在数据时效性上,不同 AI 场景(训练 / 推理)对时效性要求差异较大,需具体场景具体分析。例如:反诈场景需要及时对存在电信诈骗风险的交易进行阻断,这就需要毫秒级的数据同步效率;信贷审批需要对申请授信信息进行审核并确定额度,审核结果不需要实时反馈用户,就可以短时间延迟;生成营销活动名单需要对客户进行分群,对时效性要求不高,一般数据通过批量的形式进行采集和分析。数据供给架构需要能实现上述差异化的时效性要求。具体而言,数据在生产域系统中产生后,可通过优化的数据库存算分离架构直接服务于AI 应用,减少了传统 ETL 漫长链路带来的延迟。这种架构不仅能确保 AI 获取到的是实时或近实时的最新、一致数据,以满足反诈等场景的毫秒级需求,还通过计算资源的物理隔离,从根本上保障了核心生产数据库的稳定与性能不受干扰。

2. 在数据粒度上,“细粒度数据,保留最原始的细节信息(如每笔交易的具体字段)”和“根据 AI 模型的用途灵活提供不同粒度的数据”这两个选项呈现两极分化。在算力充足的情况下,原始细粒度数据能提供完整信息维度,为 AI 训练与推理奠定精准基础,契合金融场景对数据真实性、可追溯性的高要求。在平衡算力和成本情况下,不同场景灵活匹配数据粒度,既能避免细粒度数据冗余增加处理成本,也能防止粗粒度数据缺失关键信息,精准满足不同模型训练与推理需求。

3. 在可信 AI 数据来源上,信贷、手机银行、核心、信用卡、理财、客服等系统票数超过 70%。金融行业已形成清晰倾向:高价值的客户信息、交易信息、行为信息是可信 AI 的数据基础。

4. 在数据准确性上,超过 90% 的用户一致认为数据应具备较高的准确性,将错误率控制在相对较低的区间内,可以保障其输出结果的可靠性。同时,数据场景、数据重要性的不同对数据准确性的需求存在差异,对于重要程度高的数据和数据场景,应要求更严格的准确性,例如错误率需控制在 0.1% 以内,而对于相对次要的数据和数据场景,可适当放宽容忍度,例如错误率需控制在 1% 以内,体现出一种灵活且具针对性的考量。

5. 在数据完整性上,多数用户倾向于数据有较高的完整度,尤其是关键信息需得到充分保障,如此才能保障 AI 在处理和分析数据时的准确性与可靠性,避免因关键数据缺失而导致结果偏差。也有部分用户根据数据核心与非核心的差异,在完整性要求上更灵活。

6. 在数据一致性上,多数用户倾向于“高度一致”的标准,但在保证整体分析不受干扰的前提下,对极个别因特殊状况产生的轻微数据冲突予以一定容忍,体现出一种注重整体、适度灵活的态度。

数据来源:https://www.talkwithtrend.com/Poll/476183

参与社区共识协作用户(社区 ID):maolala、danghl、lxk215313951、xuyy、nicolg、jeko、fiery_xu、lcc、Don_lzj、zzy_jn、lmspring、elma、jinhaibo、WANG_XIN、henry8898、light_hu86、temco、xueyang、yuanly、guanyang1326、xxjsb613、Helingjun、mornsky、gzhjz、Lwy、kathynm2517、wjf102、murenxiang、Dongxin、卡尔、maokai、Infrastructure、chenh1511、allanrong、王明发

参与用户来自企业:南京银行、中信银行、人行软件研发中心、江西裕民银行、秦皇岛银行、华夏银行、浙商银行、江苏农信、杭州联合银行、锦州银行、烟台银行、兰州银行、光大银行、昆仑银行、乐商银行、吉林银行、浙江农信、中金所、杭州银行、重庆三峡银行、辽宁农信、泉州银行、宁波通商银行、华融湘江银行、苏州银行、天津滨海农商银行、山西银行、申万宏源证券、华泰证券


同行观点

■ 党宏雷 某国有银行软件开发中心 架构师


高度准确性、完整性和一致性,避免造成数据理解的冲突和矛盾。

可信 AI 需要生产域提供的数据来源方面,如果涉及训练或推理使用的数据支持,应该保障大量、优质、多样性、真实性和业务场景关联度高等要求。

生产域数据入湖的时效性需结合 AI 业务需求而定:有的场景,按天或月的批量更新即可满足;特定实时应用需更高频的流式入湖。

数据的粒度方面,鉴于模型性能水平和数据提供的工作量,建议根据实际情况灵活适配。

数据的准确性、完整性和一致性,个人建议是最高要求的,避免造成数据理解的冲突和矛盾。



■ 黎果 某银行 基础架构运维工程师


可信AI的数据诉求是体系化要求。


可信 AI 对生产域数据的管理和使用有极高的要求,核心诉求是一种涉及多业务维度、覆盖数据全部生命周期的体系化要求。鉴于数据与大模型的强耦合性、 风险影响的放大效应与不可控性、 金融数据在 “采集、存储、处理、使用、销毁”全流程受到多重法律约束等客观因素,需要业务、科技、风控、合规、审计等组织跨部门、跨领域进行深度协同,构建一套完整的生产域数据闭环管控保障机制,确保从数据产生源头到驱动 AI 应用决策的每一个环节都可控可信,不断增强体系化的数据治理能力,将成为银行机构在可信 AI 应用领域的核心竞争优势。

■ 范容 某股份制银行 研发主管


避免过度追求数据完美。


可信 AI 对生产域数据的核心诉求需结合具体场景灵活适配,不能简单地用统一标准去衡量所有情况。在保障 AI 可信度的前提下,应着重抓住核心数据(如关键业务指标、高风险交易数据)的完整性和一致性,对于次要或非核心数据则可适当放宽要求。这种“抓核心放次要”的思路,旨在通过差异化的数据质量策略,平衡 AI 输出的可靠性与实施的成本及效率。这意味着,在数据治理过程中,应优先确保直接影响模型决策效果的关键数据的高质量,同时容忍非关键字段存在少量误差或缺失,从而避免因过度追求数据的完美无缺而导致项目成本攀升、处理流程复杂化和整体效率下降,实现更加务实和可持续的 AI落地应用。


议题共识总结

在 AI 与金融场景深度融合的背景下,依托高质量数据消除 AI 模型幻觉成为复合型金融数据中心的必然选择。生产域作为数据源头,其数据供给质量决定可信 AI 的落地效果。经行业投票及观点交流,形成以下核心共识:

1. 在数据来源与类型上,行业倾向清晰。信贷、手机银行、核心、信用卡、理财、客服等系统数据所产生的高价值的客户信息、交易信息、行为信息被认定为可信 AI 的数据基础,且需满足合规合法、可追溯的前提,确保数据源头可信;类型方面,需覆盖交易流水、客户画像、风险评估、日志信息等多样化金融场景数据,以满足 AI 多维度信息分析需求,为模型训练与推理提供全面支撑。

2. 数据时效性与粒度需结合场景灵活适配。时效性上,不同场景差异显著:反诈场景需毫秒级数据同步以实现风险交易阻断,信贷审批场景可接受短时间延迟,营销活动名单生成场景对时效性要求最低,数据多通过批量采集分析。粒度上呈现两极分化,算力充足时,行业更倾向保留含每笔交易具体字段的原始细粒度数据,以契合金融场景对数据真实性、可追溯性的高要求;需平衡算力与成本时,则主张按 AI 模型用途灵活提供不同粒度数据,避免数据冗余或性能瓶颈。

3、数据质量(准确性、完整性、一致性)是核心底线。准确性上,数据错误率需要处于低区间,且按重要性差异化设定:高重要性数据错误率需≤ 0.1%,次要数据可放宽至≤ 1%。数据应具有高完整度, 关键信息必须保障以规避AI决策偏差, 同时允许对非核心信息适度放宽要求。一致性上,主流倾向“高度一致”标准,但可容忍不影响整体分析的轻微冲突,或接受通过规则校验处理少量冲突。

综上所述,可信 AI 生产域作为数据源头,需优先保障数据准确性、完整性、一致性以避免模型幻觉。时效性与粒度按需适配,不同场景时效要求不同,粒度依算力成本灵活选择。另外,在数据需求上要“抓核心放次要”,避免过度追求数据完美导致成本上升、效率下降。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询