行业资讯

机器人等不来一个「ChatGPT」时刻：可能不会有机器人领域单一的突破革命

机器人等不来一个「ChatGPT」时刻：可能不会有机器人领域单一的突破革命(图1)

　　在接下来的几十年里，数十亿台由 AI 驱动的自主机器人将与人类并肩工作：它们会在工厂里干活，在仓库里做枯燥的任务，照护老人，进入危险的灾区，递送包裹和餐食，最终也会在家里帮我们分担工作。

　　这些机器人部分形似人类，但更多更具特色。不论外形如何，它们都将高度依赖 AI，才能在现实世界里创造真正的价值。这篇发表在 IEEE Spectrum 的文章认为，AI 机器人将迎来一个关键拐点，但这不会来自某个单一的「ChatGPT 式」突破，而会来自一整套协同工作的 AI 工具与系统。

　　文章指出，2025 年机器人公司总投资达到创纪录的 407 亿美元，约占全部风险投资的 9%。在这样的背景下，真正的问题就变成了：AI 机器人究竟要怎样才能开始产生足够大的经济影响？今天许多机器人公司都在做出大胆承诺，比如说人形机器人很快就会进入家庭，但承诺与现实之间仍然有很大鸿沟。

　　让机器人与我们一起生活、工作的愿景已然流行了很久，许多程序员也一直试图把这个愿景变成现实，但物理世界实在太复杂，传统程序根本无法处理它所呈现出的无穷细节。正因为有了 AI，机器人不再只是被「编程」，它们开始通过学习来适应真实世界。

　　该文章的两位作者分别来自机器人学与 AI 机器人产业的一线：一位是俄勒冈州立大学机器人学教授，同时也是 Agility Robotics 的联合创始人和首席机器人官；另一位曾在 Google X 担任 Everyday Robots 项目的副总裁，主导过相关 moonshot 项目。

　　基于他们在真实场景中部署 AI 机器人的经验，作者认为：AI 在复杂机器人系统中的确会带来巨大收益，但真正推动机器人进步的，不会是某个单点的「顿悟时刻」，而是多种 AI 工具组合起来、经过精心工程化后的系统能力。

　　这些年，我们在 YouTube 上见过太多令人惊叹的人形机器人视频：机器人能跳舞、跑障碍、甚至做出各种高难度动作。机器人圈里有句老话：「永远不要轻信一段 YouTube 机器人视频。」因为能够在非结构化的人类环境中真正做事的机器人，与那些经过精心脚本、剪辑和排演的表演机器人之间，差距仍然非常大。

　　最近引发关注的是春晚上一场武术表演。虽然令人印象深刻，但这依旧属于长期以来那类高度编排的机器人演示：一切都经过了提前设计与排练。底层控制、同步性和动作编排都非常惊艳，但这类表演展示出的自主性和智能，仍更接近工业机器人，而非民用的通用机器人。

　　这些演示确实会让人追问：机器人技术究竟走到哪一步了？如果机器人都能打拳、后空翻、跳舞，为什么它们还不能在晚饭后替我把碗洗了？答案很简单：让 AI 机器人在多变的人类环境中执行通用任务，依然非常困难。春晚这类演示里用到的 AI，主要只是低层运动控制，它只是让机器人走向通用能力道路上的一小部分。

　　大语言模型最初是拿互联网规模的文本数据训练出来的。到了 2022 年底，ChatGPT 横空出世，让世界第一次意识到：AI 机器竟然真的可以用散文、诗歌，甚至几乎关于任何主题的方式与人交流。后来，LLM 证明了它们有很强的泛化能力，也开始支持多模态输入与输出，比如文本、图像和视频。

　　但这类训练数据有两个关键特征：规模巨大，而且来自人类——而这恰恰是 AI 训练的黄金标准。可问题是，把 AI 赋予身体、让它以机器人的形式进入物理世界，一直都是一个非常困难、而且普遍没有被解决的问题。面向通用机器人的 AI 模型，必须在非结构化、动态变化的环境中，同时满足物理、几何和时间上的多重约束。

　　为了实现泛化，机器人模型需要在高维配置空间里训练；这里的「维度」可能包括文本、光照条件、自由度、关节限制、速度、力以及安全边界等等。更重要的是，这必须是「好数据」——要覆盖物理世界中几乎无限多种可能状态。

　　现实里几乎没有现成的数据源能满足这一点，因此，遥操作、视频分析、人类动作捕捉，以及在仿真和真实世界中的自我探索，都被视为重要的数据采集方式。这是一项极其艰巨的任务。比如在 Google X 的 Everyday Robots 项目里，团队在 2022 年跑了 2.4 亿个仿真机器人实例，就为了训练一个垃圾分类模型。

　　要让机器人在某项技能上达到接近人类的水平，可能需要再每一种技能上都花费与之类似规模的数据。眼下，这样的能力还远没有达到人类水平。

　　从现实角度出发，距离一个「单一 AI 模型就能让通用机器人和我们一起生活工作」的时代还很远。物理世界极其复杂，而且机器人周围还会有各种人和动物。怎样训练一个模型，让它在所有这些场景里都能安全、可靠地操作机器人？现在还做不到，至少短期内做不到。

　　相比于依赖一个全能的 AI，作者更看好的是「agentic AI」架构，也就是机器人上运行的高层协调模型。它们可以推理、规划、使用工具，并从结果中学习，在有限监督下执行复杂任务。这样的高层模型会调用专门负责不同任务的子系统。作者甚至预测，不久之后我们会看到多台机器人通过各自的机载 agentic AI 协同工作。

　　AI 工具正在释放机器人新的、强大的能力，也会带来新的解决方案和新市场。作者乐于看到这些新模型被广泛开放，甚至有些已是开源版本，因为这很像互联网曾经经历的过程：真正的进步，发生在普及之后。作者预期，随着这些 AI 工具与技术的广泛可得，机器人中复杂行为的普及也将不可避免地发生。

　　机器人是个复杂的系统，很多部件都必须精确协同。要让机器人真正有用且安全，感知系统、控制计算机以及执行器等每一个环节都要配合得非常精密。

　　执行器（也就是电机和齿轮）正是一个典型例子：过去能支撑工业机器人的技术，不一定能支撑未来要在人类环境中工作的机器人。如果这些机器人不小心撞到障碍物，冲击会很硬、力会很大，最后容易损坏——人类可不是这样运动的。

　　人类与世界的互动更具有顺应性。想必读者经常能在钥匙孔周围看到划痕，或者在手机充电口看到类似的痕迹。这是人类对环境感知的代表。而机器人如果想达到类似的能力，它们就必须具有对应的执行器，并且将其大规模普及开来。

　　令人印象深刻的演示，与真正创造价值的现实任务之间，有着巨大差别。机器人技术正好体现了莫拉维克悖论：对人类很难的任务，往往对电脑很容易；而对人类很容易的任务，比如幼儿的动作，对电脑和机器人却极其困难。

　　提供服务是一种非常严苛的现实检验，因为客户只关心自己的问题是否真的被解决。要部署基于 AI 的机器人方案，它们必须在性能和安全上都优于现有做法。Agility Robotics 早期在客户场景部署人形机器人 Digit 时，很快发现的第一个障碍就是安全：机器人在人的空间里保持平衡并操作物体，会给工作场所带来新的风险。

　　在最初的部署中，物理隔离是必要的。Agility 之后围绕安全问题展开了长达数年的工程工作，几乎触及机器人设计的每一个方面，并大量依赖新的、基于 AI 的人类检测与行为控制方法。

　　另一方面，Google 的 Everyday Robots 早在 2019 年就在办公楼里部署机器人，做清理咖啡桌、分拣垃圾之类的杂务。团队很快就发现，真实世界对机器人来说「非常混乱，也非常困难」。这段经历反过来塑造了他们 AI 系统的架构与部署方式，同时也积累了可与仿真数据结合的真实世界训练数据。

　　于是作者得出了结论：只有产品满足了需求，并持续推广部署，才可能反过来塑造 AI 工具和基础设施的结构，让机器人在短期内获得实用价值，并沿着通往更大能力和更强通用性的道路前进。

　　除非有极为丰富的经验，不然就不要期待天降幸运与高级算法，就算真有，数据量也不够喂的。

　　展望未来，作者毫不怀疑：世界正在通过机器人把 AI 带入物理世界。人类正处在有用智能机器「寒武纪大爆发」的开端。AI 不是单一工具，而是一整片巨大的技术前沿；它正在释放新能力，而这些能力将强大到足以塑造未来经济。

　　这场变化不会发生在某个唯一、定性的时刻，而会以一个又一个大小不一的突破逐步展开：AI 驱动的机器人先在少数任务上提供真实价值，然后再扩展到更多任务，最终在众多千亿美元级市场中产生连锁影响，显著改善人类生活质量。

上一篇：北交所“传感器第一股”冲刺港股IPO 下一篇：光明网评论员_光明网(6)

栏目导航

新闻资讯

联系我们

电话：0755-27586855

传真：0755-27586833

手机：13966220023

邮箱：2788505339@qq.com

地址：深圳市宝安区新桥街道洪田社区新桥东先进制造产业园

Kaiyun（开云体育）中国官方网站-开云体育登录入口

行业资讯

机器人等不来一个「ChatGPT」时刻：可能不会有机器人领域单一的突破革命

相关新闻

栏目导航

新闻资讯

联系我们