微信扫码
添加专属顾问
我要投稿
AI投资顾问并非绝对客观,研究发现其决策深受训练数据偏见影响,可能偏离你的真实投资意图。 核心内容: 1. 大型语言模型在金融分析中存在的知识冲突与偏见来源 2. 论文揭示的四种典型认知偏差及其对投资决策的影响 3. 三阶段实验法量化分析AI偏见的创新研究方法
想象一下,你有一位超级聪明的AI投资顾问。它不仅能读懂海量新闻、分析师报告,还能快速处理实时市场数据,为你推荐最佳投资标的。听起来很完美,对吧?
Your AI, Not Your View: The Bias of LLMs in Investment Analysis
https://arxiv.org/pdf/2507.20957
本次给大家介绍的论文,却给我们泼了一盆“冷静水”,揭示了一个令人不安的真相:看似客观公正的AI,很可能正在用它自己的“偏见”而非你的意图在做决策。
大型语言模型(LLM),比如我们熟知的ChatGPT、Gemini等,在训练时吸收了海量的文本数据,形成了一套根深蒂固的“内部知识”或“参数化知识”。但金融市场是瞬息万变的,今天的实时数据可能与模型训练时积累的旧知识完全相反。
知识冲突就此产生:
既然LLMs是通过海量的人类文本数据训练出来的,它们不可避免地会“继承”人类的认知偏见。这就像一个孩子在成长过程中,会无意识地学习父母的思维习惯。论文列举了几个LLM继承的人类偏见,这些都为理解金融偏见奠定了基础。
论文采用了一个精巧的三阶段实验框架(如图2所示),它不仅能发现AI的偏见,还能衡量这些偏见到底有多“顽固”。这套方法论就像一套精密的手术刀,层层剖析AI的决策过程,让我们得以窥见其内在的“认知机制”。
为了避免AI胡乱编造信息(即幻觉,Hallucination),研究人员选择了一个特定的股票池:过去五年内持续位列标准普尔500指数的427只股票。
研究人员需要为每只股票创建一套“买入”和“卖出”的论据。为了保证公平和中立,他们没有使用任何一个被测试的LLM来生成这些论据,而是专门使用了另一个独立的模型Gemini-2.5-Pro。
为什么要单独用一个模型来生成论据? 因为研究显示,LLM往往会偏爱由自己或同类模型生成的内容。如果测试模型自己生成了论据,它可能会因此产生偏见。通过使用一个独立的“中立”模型,可以有效排除这种“生成偏见”。
如何确保论据是平衡的? 所有的“买入”和“卖出”论据在数量和强度上都是完全相等的。每个论据都以一种固定的语言结构表述,并预设了5%的价格变化预期。这意味着从外部证据上看,买入和卖出是“势均力敌”的。
不同模型的行业偏好差异巨大。Llama4-Scout和DeepSeek-V3这类模型,表现出对特定行业的强烈偏好,例如Llama4-Scout偏爱能源股,DeepSeek-V3则偏爱科技股。
而GPT-4.1和Mistral-24B则显得“佛系”得多。它们的偏好得分普遍较低,且在不同行业间的差异不显著。这意味着它们在处理不同行业的信息时,更可能保持一种中立态度,而不是依赖其内部知识。 这一发现打破了“AI偏爱某个普遍行业”的假设。相反,模型的行业偏好是其“身份”的函数。
这是一个非常一致且显著的发现——绝大多数LLM都偏爱大公司(高市值公司,即Q1分位)。DeepSeek-V3的这一倾向最为明显,对大公司的偏好得分远高于小公司。GPT-4.1则再次成为例外,它对公司规模的偏好得分几乎一致,表明其判断受此因素影响较小。
论文将这种现象归因于“流行度效应”(Popularity Effect)。大型、知名的公司在模型训练数据中占据了更大的篇幅,包含更丰富、更多元的信息。这种偏好在实际应用中非常危险。它可能导致AI在投资组合构建时系统性地忽视小盘股,即便这些公司基本面良好、成长潜力巨大。
研究人员测试了两种投资风格:动量策略(追涨)和逆势策略(抄底)。结果显示,所有模型都倾向于逆势策略。Qwen3-235B的逆势偏好最强,而Gemini-2.5-flash的偏好差异则不显著。
最后,研究人员通过 “熵分析” 来探究AI在做决策时的内部不确定性。熵值越高,代表模型越不确定。
偏好较弱的GPT-4.1表现出高熵,说明它在面对平衡证据时非常纠结,不知道该如何选择。而偏好较强的DeepSeek-V3则表现出低熵,它能够利用其内部偏好轻松地做出“自信”的决定。
发现对我们使用AI进行金融决策具有深远的意义。我们不能简单地将AI视为一个客观的工具,而必须将其视为一个有“个性”、有“偏见”的分析师。理解并考虑到这些偏见,将是我们在AI时代做出更明智、更可靠决策的关键。
你对这些模型偏好中,哪一项最感到惊讶?你认为在实际应用中,如何才能有效“纠正”AI的这些偏见?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-05
我不是很看好GPT-5
2025-08-05
企业构建AI Agent 的五个视角|伯克利Agentic AI Summit
2025-08-05
金融Agent竞赛:什么才是最实用的打开方式?
2025-08-05
一条SQL管理向量全生命周期,让AI应用开发更简单
2025-08-05
赛博沙盒:如何与AI共创未来丨1.4万字圆桌实录
2025-08-05
AI与AIGC在企业实践中的应用
2025-08-05
让AI回答更“聪明精准”?你必须认识“命题切块”技术!(附实测详解、RAG新范式解析)
2025-08-05
这家AI Infra公司为什么做了一个“中国版的E2B”?|甲子光年
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28
2025-08-05
2025-08-05
2025-08-05
2025-08-04
2025-08-02
2025-08-02
2025-07-31
2025-07-31