我要投稿

你以为AI理解了，其实没有

发布日期：2025-06-04 19:05:26 浏览次数： 2093

作者：译数据

微信搜一搜，关注“译数据”

最近我读到一项NYU(纽约大学)研究，彻底颠覆了我对大语言模型"智能"的认知。长期以来，我们一直在争论LLMs(大语言模型们)是否真的像人类一样思考，现在终于有人用科学的方法给出了答案——结果可能会让你大吃一惊。

这项研究的核心问题很简单却很深刻：大语言模型真的理解概念和意义吗，还是仅仅在进行复杂的统计模式匹配？

为了回答这个问题，研究团队使用了认知心理学领域的经典实验作为基准测试。他们没有使用众包数据，而是采用了严格的科学基准——那些已经被用来研究人类如何真正分类事物的数据集，比如人类如何理解"鸟类"或"家具"这样的概念。

实验设计：用信息论框架测试概念理解

研究团队测试了30多个大语言模型，包括我们熟悉的BERT、Llama、Gemma、Qwen等。他们使用了一个巧妙的信息论框架来衡量两个关键指标之间的权衡：

• 压缩效率：模型如何有效地组织信息
• 语义保持：模型保留了多少语义细节

这个框架让我想起了一个有趣的类比：想象你在整理一个巨大的图书馆。你可以选择将所有书籍简单地按字母顺序排列（高压缩，但丢失了主题信息），或者按照复杂的主题分类系统排列（保持更多语义信息，但组织更复杂）。

发现一：好消息——LLMs确实能形成概念

第一个发现让我感到欣慰：LLMs确实能够形成与人类显著一致的广泛概念类别，这种一致性远超随机水平。

更有趣的是，研究发现较小的编码器模型（如BERT）在这方面的表现竟然超过了规模更大的模型。这个发现挑战了我们"规模越大越好"的传统认知。看来，在概念理解这个特定任务上，规模并不是一切。

这让我思考：也许我们一直在错误的方向上追求AI的进步？

发现二：细节魔鬼——LLMs缺乏"典型性"理解

然而，第二个发现揭示了一个关键问题：LLMs在细粒度语义区分上存在明显困难。

什么是"典型性"？简单来说，人类知道知更鸟比企鹅更像典型的"鸟"，玫瑰比仙人掌更像典型的"植物"。这种理解帮助我们在复杂的现实世界中快速做出判断和推理。

但LLMs做不到这一点。它们的内部概念结构无法匹配人类对类别成员资格的直觉理解。这就像一个人能够识别所有的鸟类，但无法理解为什么有些鸟比其他鸟"更像鸟"。

发现三：根本差异——优化目标的分歧

最令我震惊的是第三个发现，它揭示了LLMs和人类之间的根本性差异：

• LLMs的策略：激进的统计压缩（最小化冗余）
• 人类的策略：自适应丰富性（保持灵活性和上下文）

这个差异解释了为什么LLMs能够同时表现出令人印象深刻的能力，却又会错过一些对人类来说显而易见的推理。它们并没有"坏掉"——它们只是为模式匹配而优化，而不是为人类使用的那种丰富的、上下文化的理解而优化。

想象一下，如果你被要求用最少的存储空间来保存所有重要信息，你可能会创建一个高度压缩的系统。但如果你需要在各种不可预测的情况下灵活使用这些信息，你可能会选择一个更冗余但更灵活的存储方式。这就是LLMs和人类的区别。

对AI发展的深刻启示

这项研究的意义远不止于学术层面，它对AI的未来发展提出了三个重要启示：

1. 规模扩展可能无法带来类人理解

当前的AI发展策略主要依赖于规模扩展——更大的模型、更多的数据、更强的计算能力。但这项研究表明，简单的规模扩展可能无法导致真正的类人理解。

我们需要重新思考：也许通往AGI的路径不是更大的模型，而是更聪明的架构设计？

2. 需要平衡压缩与语义丰富性的新架构

研究指出，我们需要能够平衡压缩效率与语义丰富性的新架构。这不是一个简单的技术问题，而是一个根本性的设计哲学问题。

如何在保持效率的同时，让AI系统保留更多的语义细节和上下文信息？这可能需要我们开发全新的神经网络架构或训练方法。

3. 重新审视优化目标

最重要的是，这项研究提醒我们需要重新思考AI系统的优化目标。如果我们希望AI更像人类一样理解世界，我们可能需要改变它们的学习目标，从纯粹的统计效率转向更复杂的、包含语义丰富性的目标函数。

测量工具：为未来研究铺路

这项研究不仅揭示了问题，还提供了解决方案的工具。研究团队开发的压缩-意义权衡测量框架可以用来指导未来的AI开发，帮助我们构建更符合人类概念表示的AI系统。

这让我想到了早期的计算机科学发展历程。当我们刚开始构建计算机时，我们专注于计算速度和存储容量。但随着时间的推移，我们意识到用户体验、可用性和人机交互同样重要。也许现在的AI发展正处于类似的转折点。

认知心理学与AI的美妙结合

作为一个技术从业者，我特别欣赏这项研究将认知心理学和AI研究结合起来的方法。这提醒我们，真正的AI进步可能需要跨学科的合作。

人类花了数百万年进化出复杂的认知能力，我们不应该期望仅仅通过增加计算资源就能复制这些能力。相反，我们需要深入理解人类认知的机制，然后在AI系统中实现类似的原理。

写在最后：重新定义"智能"

这项研究让我重新思考了"智能"的定义。也许真正的智能不在于能够处理多少数据或执行多复杂的计算，而在于能够像人类一样灵活、上下文化地理解世界。

LLMs已经在许多任务上表现出色，但它们与人类理解世界的方式存在根本差异。认识到这一点，不是要贬低当前AI技术的价值，而是要为未来的发展指明更清晰的方向。

未来的AI系统可能需要在统计效率和语义丰富性之间找到更好的平衡，这将是一个充满挑战但极其有趣的研究方向。作为AI技术的观察者和参与者，我对这个未来充满期待。

毕竟，真正理解人类如何思考，可能是构建真正智能机器的第一步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-04

ContextBucket：Agent 的"无限"记忆与工作区底座

2026-06-04

写给 Codex 小白用户的全网最详细教程：从 0 到 1，把它真正用起来

2026-06-03

Kimi Work Beta 版邀你体验：你的工作，分我一半

2026-06-03

实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

2026-06-03

Agent 越能干，你越不敢放手？ANOLISA给它穿上全套防护

2026-06-03

《审慎部署智能体AI服务》指南

2026-06-03

OpenClaw 和 Hermes 没凉，浅层使用先退场了

2026-06-03

Anthropic突然上线全新CLI：一行命令操控Claude全部API

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

2026年国内如何注册 Claude 账号教程

2026-03-13

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

大家都在问

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw