微信扫码
添加专属顾问
我要投稿
机器人技术正迎来关键突破期,大语言模型如何推动具身智能的"GPT-1时刻"? 核心内容: 1. 大语言模型技术演进与具身智能发展瓶颈 2. 机器人商业化落地的关键挑战与突破路径 3. 在机器人"GPT-1时刻"来临前的战略布局建议
随着大语言模型的飞速演进,人工智能正加速从"语言理解"迈向"行为执行",具身智能的发展也进入关键阶段,机器人虽在移动能力方面取得突破,但在操作能力和通用泛化方面仍面临严峻挑战。在这场技术变革中,数据 × 模型 × 智能的融合成为推动智能系统"理解"与"行动"的核心变量。如何通过更大规模的数据、更高效的模型和更强的工程能力,实现机器人在开放环境中的稳定运行与任务泛化,是当前人工智能领域亟待突破的难题。本文特邀腾讯云 TVP 邓亚峰,深入解析大语言模型的技术演进路径、具身智能的发展瓶颈与未来趋势,探讨机器人领域在商业化落地过程中的关键挑战与可能突破。
目录
一、从特征工程到自监督学习:数据驱动下的 AI 四次飞跃
二、大语言模型和人类的“快思慢想”
三、Scaling Law 揭秘:为什么“越长”越“聪明”?
四、具身机器人的“GPT-1时刻”何时出现?
● 具身机器人为何迟迟未迎来“破晓时刻”?
● 大语言模型 vs 具身机器人
五、从实验室到产业化:机器人产品化的关键跃迁
六、VLA 破局之路:数据和模型突破
七、如何在具身机器人的“GPT-1时刻”来临前赢得先机?
作者简介
一、从特征工程到自监督学习:
数据驱动下的AI四次飞跃
● 2012 年之前:弱模型与特征工程主导期,模型能力弱,依赖人工特征设计,数据量对性能提升有限;
● 2012 年开启:深度学习的兴起(监督学习时代),2012 年深度学习技术的突破成为关键转折点,深度神经网络广泛应用,模型性能显著提升,但依赖昂贵的监督学习数据;
● 2022 年加速:大语言模型与自监督学习的突破,这一阶段以大语言模型的出现为标志,自监督学习成为主流,训练数据扩展至万亿级,模型参数也达到千亿级别;
● 当前进行时:基于能力扩展的持续进化,引入强化学习机制,尤其是结合"思维链"(Chain-of-Thought)等方法,进一步增强了语言模型的推理与生成能力。
AI 的发展路径正逐步接近人类大脑的学习机制:通过大量感知与交互进行“自监督学习”。回顾人工智能的发展历史,我也曾多次经历技术高潮与低谷。而我最深刻的体会是:任何技术路线,如果不符合“Scaling Law”——即模型参数更大、训练数据更多、推理时输出更长,效果就更好——那么这种方向往往最终是错误的。
大语言模型自 2018 年 GPT-1 架构确立后,就更多集中在如何利用更大规模的数据,以及通过各种形式的功能训练来进一步提升模型性能。2020 年的 GPT-3 成为关键节点,推动了如 ChatGPT 等应用的发展。目前的发展趋势大致沿着两个方向展开:一个是多模态方向,即将视频、图像等模态引入模型,进一步拓展其感知能力;另一个则是继续基于语言模态进行优化和深化。
二、大语言模型和人类的“快思慢想”
尽管存在"幻觉"问题,但大语言模型的推理机制正在逐渐接近人类的认知过程。人类在决策时也有两个系统,一个是快速反应的直觉系统,另一个是缓慢但理性的分析系统。对于简单问题,我们可能脱口而出答案;而对于复杂问题,则需要深入思考。
早期 LLM 模型如同"直觉系统",直接输出答案;引入"思维链"技术后,模型能够进行分步骤推理,更类似于人类的理性思考方式。这种进化不仅依赖于监督学习,还借鉴了人类通过环境反馈进行强化学习的方式,AlphaGo 的成功便是明证。
而春节期间爆火的 DeepSeek 做出了非常创新的尝试,此前,大家普遍认为必须告诉 AI 人类是如何思考的,但 DeepSeek 不需要明确的人类思维链数据,仅通过问题-答案的训练,AI 就能自主学习如何推理。随后通过加入人类思维链优化输出,使得推理更加符合人类习惯。
三、Scaling Law揭秘:
为什么“越长”越“聪明”?
在语言模型的发展过程中,有两个阶段值得注意,第一是预训练,正如前面提到的,强化学习虽能提升模型的逻辑推理能力,但其效果高度依赖基础模型的质量。若基础模型训练不足,则难以展现出有效的推理能力。第二是后训练,通常是在高质量基础模型之上,利用少量强化学习数据进一步提升模型的推理能力。这一阶段的进展标志着大语言模型技术已迈入高度成熟的发展阶段。
具身机器人为何迟迟未迎来“破晓时刻”?
尽管大语言模型在语言理解、推理与生成方面展现出前所未有的能力,但它们依然缺乏一个关键维度——与物理世界的实时交互。人类智能不仅体现在语言与思维上,更体现在通过身体感知环境、与世界互动、在行动中学习与适应的能力,在这一背景下,具身智能逐渐成为人工智能发展的下一个重要方向。
机器人虽已经发展多年,但尚未达到真正的智能水平,无法实现广泛的泛化和通用性,应用场景也因此受到限制。例如,我们在春晚上看到的机器人舞蹈表演,其动作都是预先编排好的,而在流水线或车间中使用的机器人则是通过编程执行特定步骤,而非依赖于 AI 技术自主决策。
不过,在某些特定场景下,如扫地机器人等清洁类应用,已经取得了较为成熟的成果。总体而言,当前机器人技术的应用场景仍然相对局限,这也限制了其商业化的可能性。
展望未来十年乃至二十年,影响机器人大规模落地的关键因素如下:
●
成本:随着规模化生产,单个机器人的成本有望降至约一万元人民币(相当于五台空调的价格),这一价格水平对于市场接受度来说并不是主要障碍。
● 显著可衡量的价值:机器人必须为用户提供显著且可衡量的价值,这一点在机器人领域相对容易实现。
大语言模型 vs 具身机器人
接下来,我们可以对比一下具身机器人与大语言模型之间的差异,在我看来,首先大语言模型得益于海量的语料库支持,而机器人领域则缺乏足够的数据量。而数据的质量和数量直接决定了模型的表现及方法的有效性,经过多年的研究和发展,我认为目前的模型架构已经相当先进,理论上可以用这些模型来描述机器人任务。
然而,由于缺乏足够丰富的数据,无法像大语言模型那样通过大规模数据训练来提升性能,因此机器人领域的挑战更多在于如何获取和利用数据,而不是模型本身的架构设计。从技术发展现状来看,我认为具身机器人领域尚未出现像 2018 年 GPT-1 那样具有标志性意义的突破,这正是当前技术阶段的真实写照。
在商业化层面,语言模型的落地其实面临较大挑战,市场竞争也十分激烈。无论是云厂商、互联网平台,还是 AI 创业公司,都在围绕语言模型展开激烈角逐。相比之下,机器人在商业化上的潜力更大,对不同类型、不同体量企业的包容性也更强。
当前语言模型的竞争主要集中在应用场景的拓展上,例如 Agent 应用,因为模型的基础能力已经非常强大。而在具身机器人领域,真正的竞争焦点仍然是“智能”本身——即机器人是否真正具备了足够的智能水平来完成复杂任务。
以 AI “六小龙” 为代表的大模型公司在 DeepSeek 出现之前,普遍获得了较高的市场估值。而随着 DeepSeek 的出现,市场对这些公司的价值判断发生了显著变化。具身智能领域也将经历类似过程:在没有出现类似 GPT-1 或 DeepSeek 级别的技术突破之前,各家公司的价值判断并不清晰,融资时也容易获得较高的溢价。但一旦出现颠覆性的技术突破,整个行业的格局将发生深刻变化,具身机器人是一个未来变化空间巨大、充满未知的领域。
五、从实验室到产业化:
机器人产品化的关键跃迁
我认为具身机器人是未来十年、二十年科技领域最大的机会。其潜在市场规模甚至可能超过汽车行业,因为它的数量级可接近人口数量,同时单价也较高,因此是一个极具商业价值的赛道。
从技术角度看,目前最大的瓶颈之一是训练数据的缺乏。要推动具身机器人技术的发展,必须在数据获取和处理方面取得突破。在产品层面,有两个核心问题亟待解决:
●
任务泛化能力:我们并不期望机器人能完成所有任务,但至少要在限定任务中具备一定的通用性。例如,在抓取任务中,不能只适用于特定形状的物体,而应能应对多种形状;在执行任务时,除了抓取,还应能完成拧、摇等操作,从而实现任务层面的通用性。
●
场景泛化能力:即机器人在一个特定环境中表现良好,是否也能适应其他环境?这是另一个关键挑战,因为从原型到产品的转化过程中,稳定性与成功率是关键指标,例如实验室中我们可能尝试了 10 次,成功 1 次即可展示成果,但在真实应用中,系统必须具备高稳定性与高成功率。
另一个核心挑战是机器人操作能力(Manipulation),也尚未被解决。我们可以将机器人的能力分为两类:移动能力与操作能力。对于人类而言,真正创造价值的是操作能力。移动能力在教育、巡逻、展示等场景中确实有其价值,但更多体现在演示或辅助层面,而真正能带来产业价值和经济回报的,是机器人在操作任务上的智能表现。
●
移动能力:目前机器人的“移动能力”已经取得了不错的进展,像国内的宇树科技在这方面做得就很好,还有待提升的是避障能力。例如宇树在春晚表演时仍需要人工遥控,正是因为其避障系统还不够完善。但总体而言,我认为移动能力已经处于一个相对成熟的技术阶段。
●
操作能力:相比之下,机器人的“操作能力”仍然存在较大挑战。机器人拥有类似“大脑”的系统,负责接收指令、任务规划、更新操作并收集反馈,同时还有一个类似“小脑”的模块,负责根据大脑指令,完成具体任务。然而,由于面对的物体和环境都非常多样,所以这里最大的挑战在于是否能在限定任务中实现一定的通用性,或者实现所谓的“场景泛化”——即在不同环境中都能稳定完成任务。
而目前的机器人在实际技术层面还没有达到理想状态,更多是在演示样例上表现良好。能录制出一段非常成功的演示视频,与在真实场景中稳定运行之间还存在很大差距。如果你去参加各种机器人展会,会发现一个现象:很多机器人只是静态展示,真正能动起来、能自主完成任务的机器人其实并不多。
六、VLA破局之路:数据和模型突破
机器人领域的核心技术路线是视觉语言动作模型(VLA),但端到端的 VLA 模型,需要非常多训练数据才能达到泛化能力,且容易受到视觉信号噪声的影响,比如光照变化和物体形状变化。从模型角度来看,这并不构成特别大的技术挑战,真正的问题在于数据规模远远不足。
目前机器人领域可获得的数据量大约在百万级别,而语言模型的数据规模已经达到万亿级别。如果通过远程遥控方式操作机器人并收集数据,这个过程非常缓慢。每条数据的采集成本也非常高,这对数据积累形成了很大限制。
现在有一项机器学习方法叫做“模仿学习”。如下图所示,我们可以通过专家示范的方式,获取机器人执行任务的轨迹数据,然后让 AI 学习这些轨迹。机器人跳舞之所以能做到非常自然,就是通过模仿学习实现的,不需要额外输入,只需模仿专家的轨迹即可,拳击动作的训练也使用了类似的方法,这项技术目前相对成熟。
但这个机器学习方法只适合训练移动能力,不适合训练操作能力,所以机器人在操作任务上的能力仍然不够成熟,如果没有一个足够强大的基础模型(Finish Model),那么后续 AI 智能、Agent 智能等高级能力就很难真正体现出来。
因此,另一条可能的获取数据的路径是借助仿真器,通过仿真环境,机器人可以在虚拟世界中采集大量数据、进行反馈训练,从而提升其在现实环境中的表现。当我们在仿真环境中训练出初步模型后,再将其部署到真实场景中,结合真实数据,并通过强化学习进一步优化模型性能。
我认为解决机器人领域通用泛化的核心是找到新的 Scaling law,即数据和模型的突破。我们可能需要找到一种能够高效生成大量数据的方法,从而构建出高质量的数据集,训练出真正具备通用能力的机器人,达到接近人类操作水平的状态。这是我内心中一个相对可行的技术路径,但目前来看,这条路还没有真正走通。
七、如何在具身机器人的
“GPT-1时刻”来临前赢得先机?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-31
进阶版|企业级 AI Agent 的构建实践
2025-07-31
餐饮业卷生卷死的当下,麦当劳如何用AI突围
2025-07-31
全网疯传GPT-5泄露!首次统一GPT和o系列,编程实测demo抢先曝光,下周发布?
2025-07-31
ODPS重磅升级!全面支撑AI应用爆发
2025-07-31
四步搞定Cursor地区限制
2025-07-31
当AI成为团队“隐形搭档”:Anthropic内部如何用AI重构工作流?
2025-07-31
解锁日志分析新姿势:n8n 工作流 + ES 日志 + AI,数据洞察一键 get
2025-07-31
微软花重金做的Copilot,居然被WPS一个按钮给秒了?
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-07-31
2025-07-31
2025-07-31
2025-07-30
2025-07-30
2025-07-30
2025-07-30
2025-07-29