支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


你的AI,还是它的偏见?揭开大型语言模型在投资分析中的“认知黑箱” | Arxiv 论文

发布日期:2025-08-05 15:07:06 浏览次数: 1525
作者:Coggle数据科学

微信搜一搜,关注“Coggle数据科学”

推荐语

AI投资顾问并非绝对客观,研究发现其决策深受训练数据偏见影响,可能偏离你的真实投资意图。

核心内容:
1. 大型语言模型在金融分析中存在的知识冲突与偏见来源
2. 论文揭示的四种典型认知偏差及其对投资决策的影响
3. 三阶段实验法量化分析AI偏见的创新研究方法

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

想象一下,你有一位超级聪明的AI投资顾问。它不仅能读懂海量新闻、分析师报告,还能快速处理实时市场数据,为你推荐最佳投资标的。听起来很完美,对吧?

Your AI, Not Your View: The Bias of LLMs in Investment Analysis

https://arxiv.org/pdf/2507.20957

本次给大家介绍的论文,却给我们泼了一盆“冷静水”,揭示了一个令人不安的真相:看似客观公正的AI,很可能正在用它自己的“偏见”而非你的意图在做决策。

什么是“知识冲突”?为什么它让AI变“笨”了?

大型语言模型(LLM),比如我们熟知的ChatGPT、Gemini等,在训练时吸收了海量的文本数据,形成了一套根深蒂固的“内部知识”或“参数化知识”。但金融市场是瞬息万变的,今天的实时数据可能与模型训练时积累的旧知识完全相反。

知识冲突就此产生:

  • 模型内在知识(旧): 模型可能“认为”某个行业的股票(例如,科技股)通常表现更好。
  • 实时市场数据(新): 但实际情况是,今天市场的利好消息都集中在能源股上。

知识冲突的延伸——为什么AI会继承人类的偏见?

既然LLMs是通过海量的人类文本数据训练出来的,它们不可避免地会“继承”人类的认知偏见。这就像一个孩子在成长过程中,会无意识地学习父母的思维习惯。论文列举了几个LLM继承的人类偏见,这些都为理解金融偏见奠定了基础。

  1. 选择支持偏差(Choice-supportive Bias): 这是一种非常重要的偏见。一旦LLM做出了一个初始选择(例如,在一开始倾向于推荐某个股票),它就会显著增强对这个选择的信心,使其更难改变主意。这解释了为什么在我们的实验中,模型的偏见会变得如此顽固。
  2. 熟悉度偏差(Familiarity Bias): LLM更偏爱处理它觉得“熟悉”的文本。在金融领域,这意味着它可能更倾向于那些它在训练数据中反复见过的公司名称或术语。
  3. 锚定效应(Anchoring Effect): LLM可能会被最先出现的信息所“锚定”,后续的决策都会受到这个初始信息的影响。
  4. 自我生成内容偏见: 甚至,LLM会更信任自己生成的内容,而不是外部检索到的新信息,即便它自己生成的内容是错误的。

揭开AI投资顾问的“黑箱”:3步实验法,量化偏见从何而来?

论文采用了一个精巧的三阶段实验框架(如图2所示),它不仅能发现AI的偏见,还能衡量这些偏见到底有多“顽固”。这套方法论就像一套精密的手术刀,层层剖析AI的决策过程,让我们得以窥见其内在的“认知机制”。

考题对象:精选的“熟面孔”股票

为了避免AI胡乱编造信息(即幻觉,Hallucination),研究人员选择了一个特定的股票池:过去五年内持续位列标准普尔500指数的427只股票。

考题内容:平衡的“正反论据”

研究人员需要为每只股票创建一套“买入”和“卖出”的论据。为了保证公平和中立,他们没有使用任何一个被测试的LLM来生成这些论据,而是专门使用了另一个独立的模型Gemini-2.5-Pro。

为什么要单独用一个模型来生成论据? 因为研究显示,LLM往往会偏爱由自己或同类模型生成的内容。如果测试模型自己生成了论据,它可能会因此产生偏见。通过使用一个独立的“中立”模型,可以有效排除这种“生成偏见”

如何确保论据是平衡的? 所有的“买入”和“卖出”论据在数量和强度上都是完全相等的。每个论据都以一种固定的语言结构表述,并预设了5%的价格变化预期。这意味着从外部证据上看,买入和卖出是“势均力敌”的。

实验结果

行业偏好:没有“通用冠军”,只有“各自为王”

不同模型的行业偏好差异巨大。Llama4-ScoutDeepSeek-V3这类模型,表现出对特定行业的强烈偏好,例如Llama4-Scout偏爱能源股,DeepSeek-V3则偏爱科技股。

GPT-4.1Mistral-24B则显得“佛系”得多。它们的偏好得分普遍较低,且在不同行业间的差异不显著。这意味着它们在处理不同行业的信息时,更可能保持一种中立态度,而不是依赖其内部知识。 这一发现打破了“AI偏爱某个普遍行业”的假设。相反,模型的行业偏好是其“身份”的函数

规模偏好:普遍偏爱“大公司”

这是一个非常一致且显著的发现——绝大多数LLM都偏爱大公司(高市值公司,即Q1分位)。DeepSeek-V3的这一倾向最为明显,对大公司的偏好得分远高于小公司。GPT-4.1则再次成为例外,它对公司规模的偏好得分几乎一致,表明其判断受此因素影响较小。

论文将这种现象归因于“流行度效应”(Popularity Effect)。大型、知名的公司在模型训练数据中占据了更大的篇幅,包含更丰富、更多元的信息。这种偏好在实际应用中非常危险。它可能导致AI在投资组合构建时系统性地忽视小盘股,即便这些公司基本面良好、成长潜力巨大。

策略偏好:几乎一致的“逆势投资”倾向

研究人员测试了两种投资风格:动量策略(追涨)和逆势策略(抄底)。结果显示,所有模型都倾向于逆势策略Qwen3-235B的逆势偏好最强,而Gemini-2.5-flash的偏好差异则不显著。

AI的“内心独白”——自信与不确定性

最后,研究人员通过 “熵分析” 来探究AI在做决策时的内部不确定性。熵值越高,代表模型越不确定。

偏好较弱的GPT-4.1表现出高熵,说明它在面对平衡证据时非常纠结,不知道该如何选择。而偏好较强的DeepSeek-V3则表现出低熵,它能够利用其内部偏好轻松地做出“自信”的决定。

论文总结

发现对我们使用AI进行金融决策具有深远的意义。我们不能简单地将AI视为一个客观的工具,而必须将其视为一个有“个性”、有“偏见”的分析师。理解并考虑到这些偏见,将是我们在AI时代做出更明智、更可靠决策的关键。

  • 它们有独特的投资偏好:例如,偏爱大公司、倾向于逆势投资,但具体的行业偏好因模型而异。
  • 这些偏好非常顽固:它们会演变为确认偏见,即使面对数量或强度占优的反向证据,也很难改变主意。
  • 这种顽固背后是“认知挣扎”:那些偏见最强的模型,在面对冲突证据时,内心其实是高度不确定的。

你对这些模型偏好中,哪一项最感到惊讶?你认为在实际应用中,如何才能有效“纠正”AI的这些偏见?


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询