微信扫码
和创始人交个朋友
我要投稿
能够规划一系列行动以实现预期目标,长期以来被认为是智能体的核心能力之一,并自人工智能研究之初便成为其不可或缺的一部分。随着大型语言模型(LLMs)的出现,关于它们是否具备这种规划能力的问题引起了广泛关注。我们于2022年开发的可扩展基准测试PlanBench,紧随GPT-3的发布推出,至今仍是评估LLMs规划能力的重要工具。尽管自GPT-3以来涌现了大量新的私有和开源LLMs,但在该基准测试上的进展却出奇地缓慢。OpenAI声称,他们最近推出的o1(草莓)模型是专门构建和训练的,旨在突破自回归LLMs的常规限制,使其成为一种新型模型:大型推理模型(LRM)。本文以这一发展为契机,全面考察了当前LLMs和新LRMs在PlanBench上的表现。正如我们将看到的,尽管o1在该基准测试中的表现实现了量级上的飞跃,远超竞争对手,但距离完全占据这一基准还有相当距离。这一进步也引发了关于准确性、效率和可靠性的讨论,这些问题在部署此类系统前必须仔细考虑。
SOTA LLM模型在规划能力方面仍然非常糟糕! 如下表:
OpenAI的o1模型:是为了突破传统自回归LLMs的限制而设计和训练的,属于LRMs的一种。特点:
o1评测
当处理更复杂问题时
o1模型的性能迅速下降。例如,在需要20到40步解决的更大Blocksworld问题上,o1的准确率仅为23.63%。
o1最厉害的一点,是宣称能够准确识别无法解决的问题,这是规划能力的一个重要方面。但是,实验结果显示,在被修改为无法解决的Blocksworld问题上,o1正确识别不可解问题的比例并不高,为27%,并且有时会错误地声称可解问题为不可解。
最后是平衡成本和效率
下表中,大型推理模型(LRMs)比大型语言模型(LLMs)的成本要高得多。
文末,作者提到,虽然我们的主要关注点是对o1在PlanBench上的表现进行量化评估,但我们也注意到一个值得提及的o1特性:当模型给出错误答案时,有时还会附带一个富有创意但荒谬的理由,几乎让人觉得o1从“幻觉”进化到了“误导”! 在一个案例中,模型认为一个不可解决的问题是可解决的,因为虽然目标条件没有在最终状态中出现,但在执行过程中某个时刻曾为真,因此它认为应该继续算数。在另一个案例中,模型声称on(a,c)为真,因为它在简短的括号说明中解释道,a在b上,b在c上,因此a在某种程度上位于c的上方,应该算作“在它上面”。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-19
DeepSeek 本地部署——蒸馏版、量化版和满血版实测效果对比
2025-02-19
满足个性化需求,手把手教你微调DeepSeek大模型
2025-02-19
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
2025-02-18
DeepSeek R1 671B 完整版本地部署教程来了!!!
2025-02-18
昇腾 910B 部署满血 DeepSeek-R1
2025-02-18
如何训练LLMs像DeepSeek-R1“思考”
2025-02-17
7G显存,训练你自己的DeepSeek-R1
2025-02-17
DeepSeek-R1 如何通过知识蒸馏将推理能力传递给 Qwen
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-07-26
2025-01-27
2025-02-01
2024-12-29
2025-02-16
2025-02-10
2025-02-10
2025-02-09
2025-02-05
2025-01-24
2025-01-22
2025-01-14