Kaiyun(开云体育)中国官方网站-开云体育登录入口

行业资讯

机器人等不来一个「ChatGPT」时刻:可能不会有机器人领域单一的突破革命

  

机器人等不来一个「ChatGPT」时刻:可能不会有机器人领域单一的突破革命(图1)

  在接下来的几十年里,数十亿台由 AI 驱动的自主机器人将与人类并肩工作:它们会在工厂里干活,在仓库里做枯燥的任务,照护老人,进入危险的灾区,递送包裹和餐食,最终也会在家里帮我们分担工作。

  这些机器人部分形似人类,但更多更具特色。不论外形如何,它们都将高度依赖 AI,才能在现实世界里创造真正的价值。这篇发表在 IEEE Spectrum 的文章认为,AI 机器人将迎来一个关键拐点,但这不会来自某个单一的「ChatGPT 式」突破,而会来自一整套协同工作的 AI 工具与系统。

  文章指出,2025 年机器人公司总投资达到创纪录的 407 亿美元,约占全部风险投资的 9%。在这样的背景下,真正的问题就变成了:AI 机器人究竟要怎样才能开始产生足够大的经济影响?今天许多机器人公司都在做出大胆承诺,比如说人形机器人很快就会进入家庭,但承诺与现实之间仍然有很大鸿沟。

  让机器人与我们一起生活、工作的愿景已然流行了很久,许多程序员也一直试图把这个愿景变成现实,但物理世界实在太复杂,传统程序根本无法处理它所呈现出的无穷细节。正因为有了 AI,机器人不再只是被「编程」,它们开始通过学习来适应真实世界。

  该文章的两位作者分别来自机器人学与 AI 机器人产业的一线:一位是俄勒冈州立大学机器人学教授,同时也是 Agility Robotics 的联合创始人和首席机器人官;另一位曾在 Google X 担任 Everyday Robots 项目的副总裁,主导过相关 moonshot 项目。

  基于他们在真实场景中部署 AI 机器人的经验,作者认为:AI 在复杂机器人系统中的确会带来巨大收益,但真正推动机器人进步的,不会是某个单点的「顿悟时刻」,而是多种 AI 工具组合起来、经过精心工程化后的系统能力。

  这些年,我们在 YouTube 上见过太多令人惊叹的人形机器人视频:机器人能跳舞、跑障碍、甚至做出各种高难度动作。机器人圈里有句老话:「永远不要轻信一段 YouTube 机器人视频。」因为能够在非结构化的人类环境中真正做事的机器人,与那些经过精心脚本、剪辑和排演的表演机器人之间,差距仍然非常大。

  最近引发关注的是春晚上一场武术表演。虽然令人印象深刻,但这依旧属于长期以来那类高度编排的机器人演示:一切都经过了提前设计与排练。底层控制、同步性和动作编排都非常惊艳,但这类表演展示出的自主性和智能,仍更接近工业机器人,而非民用的通用机器人。

  这些演示确实会让人追问:机器人技术究竟走到哪一步了?如果机器人都能打拳、后空翻、跳舞,为什么它们还不能在晚饭后替我把碗洗了?答案很简单:让 AI 机器人在多变的人类环境中执行通用任务,依然非常困难。春晚这类演示里用到的 AI,主要只是低层运动控制,它只是让机器人走向通用能力道路上的一小部分。

  大语言模型最初是拿互联网规模的文本数据训练出来的。到了 2022 年底,ChatGPT 横空出世,让世界第一次意识到:AI 机器竟然真的可以用散文、诗歌,甚至几乎关于任何主题的方式与人交流。后来,LLM 证明了它们有很强的泛化能力,也开始支持多模态输入与输出,比如文本、图像和视频。

  但这类训练数据有两个关键特征:规模巨大,而且来自人类——而这恰恰是 AI 训练的黄金标准。可问题是,把 AI 赋予身体、让它以机器人的形式进入物理世界,一直都是一个非常困难、而且普遍没有被解决的问题。面向通用机器人的 AI 模型,必须在非结构化、动态变化的环境中,同时满足物理、几何和时间上的多重约束。

  为了实现泛化,机器人模型需要在高维配置空间里训练;这里的「维度」可能包括文本、光照条件、自由度、关节限制、速度、力以及安全边界等等。更重要的是,这必须是「好数据」——要覆盖物理世界中几乎无限多种可能状态。

  现实里几乎没有现成的数据源能满足这一点,因此,遥操作、视频分析、人类动作捕捉,以及在仿真和真实世界中的自我探索,都被视为重要的数据采集方式。这是一项极其艰巨的任务。比如在 Google X 的 Everyday Robots 项目里,团队在 2022 年跑了 2.4 亿个仿真机器人实例,就为了训练一个垃圾分类模型。

  要让机器人在某项技能上达到接近人类的水平,可能需要再每一种技能上都花费与之类似规模的数据。眼下,这样的能力还远没有达到人类水平。

  从现实角度出发,距离一个「单一 AI 模型就能让通用机器人和我们一起生活工作」的时代还很远。物理世界极其复杂,而且机器人周围还会有各种人和动物。怎样训练一个模型,让它在所有这些场景里都能安全、可靠地操作机器人?现在还做不到,至少短期内做不到。

  相比于依赖一个全能的 AI,作者更看好的是「agentic AI」架构,也就是机器人上运行的高层协调模型。它们可以推理、规划、使用工具,并从结果中学习,在有限监督下执行复杂任务。这样的高层模型会调用专门负责不同任务的子系统。作者甚至预测,不久之后我们会看到多台机器人通过各自的机载 agentic AI 协同工作。

  AI 工具正在释放机器人新的、强大的能力,也会带来新的解决方案和新市场。作者乐于看到这些新模型被广泛开放,甚至有些已是开源版本,因为这很像互联网曾经经历的过程:真正的进步,发生在普及之后。作者预期,随着这些 AI 工具与技术的广泛可得,机器人中复杂行为的普及也将不可避免地发生。

  机器人是个复杂的系统,很多部件都必须精确协同。要让机器人真正有用且安全,感知系统、控制计算机以及执行器等每一个环节都要配合得非常精密。

  执行器(也就是电机和齿轮)正是一个典型例子:过去能支撑工业机器人的技术,不一定能支撑未来要在人类环境中工作的机器人。如果这些机器人不小心撞到障碍物,冲击会很硬、力会很大,最后容易损坏——人类可不是这样运动的。

  人类与世界的互动更具有顺应性。想必读者经常能在钥匙孔周围看到划痕,或者在手机充电口看到类似的痕迹。这是人类对环境感知的代表。而机器人如果想达到类似的能力,它们就必须具有对应的执行器,并且将其大规模普及开来。

  令人印象深刻的演示,与真正创造价值的现实任务之间,有着巨大差别。机器人技术正好体现了莫拉维克悖论:对人类很难的任务,往往对电脑很容易;而对人类很容易的任务,比如幼儿的动作,对电脑和机器人却极其困难。

  提供服务是一种非常严苛的现实检验,因为客户只关心自己的问题是否真的被解决。要部署基于 AI 的机器人方案,它们必须在性能和安全上都优于现有做法。Agility Robotics 早期在客户场景部署人形机器人 Digit 时,很快发现的第一个障碍就是安全:机器人在人的空间里保持平衡并操作物体,会给工作场所带来新的风险。

  在最初的部署中,物理隔离是必要的。Agility 之后围绕安全问题展开了长达数年的工程工作,几乎触及机器人设计的每一个方面,并大量依赖新的、基于 AI 的人类检测与行为控制方法。

  另一方面,Google 的 Everyday Robots 早在 2019 年就在办公楼里部署机器人,做清理咖啡桌、分拣垃圾之类的杂务。团队很快就发现,真实世界对机器人来说「非常混乱,也非常困难」。这段经历反过来塑造了他们 AI 系统的架构与部署方式,同时也积累了可与仿真数据结合的真实世界训练数据。

  于是作者得出了结论:只有产品满足了需求,并持续推广部署,才可能反过来塑造 AI 工具和基础设施的结构,让机器人在短期内获得实用价值,并沿着通往更大能力和更强通用性的道路前进。

  除非有极为丰富的经验,不然就不要期待天降幸运与高级算法,就算真有,数据量也不够喂的。

  展望未来,作者毫不怀疑:世界正在通过机器人把 AI 带入物理世界。人类正处在有用智能机器「寒武纪大爆发」的开端。AI 不是单一工具,而是一整片巨大的技术前沿;它正在释放新能力,而这些能力将强大到足以塑造未来经济。

  这场变化不会发生在某个唯一、 定性的时刻,而会以一个又一个大小不一的突破逐步展开:AI 驱动的机器人先在少数任务上提供真实价值,然后再扩展到更多任务,最终在众多千亿美元级市场中产生连锁影响,显著改善人类生活质量。

栏目导航

新闻资讯

联系我们

电话:0755-27586855

传 真:0755-27586833

手 机:13966220023

邮 箱:2788505339@qq.com

地 址:深圳市宝安区新桥街道洪田社区新桥东先进制造产业园