🔥 近7天热词
特朗普 万元 外交部 马上评 外交部回应 享年
首页 > 正文

具身智能开始分层:谁卖整机,谁做底座,谁定义机器人的大脑

2026-04-14 07:46
表面上看,大家像是在同一条赛道上冲刺;但如果把Generalist AI的GEN-1、Figure、Physical Intelligence和Google DeepMind放在一起,就会发现,它们真正争夺的,并不是同一个位置。
今天具身智能真正的分野,不在“都会不会做”,而在“各自想占住产业链的哪一层”。
有的公司在做更能干的机器人,有的公司在做更通用的机器人底座,还有的公司,已经在试图抢占机器人时代的上层操作系统。看不清这一层,就容易把不同公司的路线混成一句空洞的话:都在做“机器人大模型”。可真正重要的问题,不是谁更会讲“大模型”,而是谁更接近商业闭环,谁更有可能变成别人绕不过去的基础设施。
先看Generalist AI。它最值得注意的地方,不是会讲“通用智能”的大词,恰恰相反,它的表述非常像产业语言。2026年4月2日发布的技术长文《GEN-1:将具身基础模型扩展到“精通”阶段》(GEN-1: Scaling Embodied Foundation Models to Mastery)里,GEN-1 给出的核心指标很直接:在若干简单但高价值的物理任务上,平均成功率从 GEN-0的64%提高到99%,执行速度达到此前若干基线模型的约3倍,而且每项结果所需的机器人数据压到约1小时。文章也说得很清楚,GEN-1的目标不是“所有任务都解决”,而是让一批简单任务先跨过商业可行性的门槛。
这件事为什么这么重要?因为它悄悄改写了机器人行业的评价标准。过去大家最爱问的是:机器人会不会做这件事?现在Generalist把问题改成:它能不能稳定做、够不够快、出了意外能不能自己补救?也就是它所谓的“掌握”(mastery),由可靠性、速度和即兴应变三部分组成。
这个定义的关键,不在于概念新,而在于它更接近工厂和仓配中心的真实尺度。真正有价值的,从来不是它做成过一次,而是它能连续做一百次、两百次,速度还不拖节拍。文章里展示的扫地机器人维修、盒子折叠、手机装箱等任务,都不是为了证明它有多聪明,而是为了证明它开始值钱。
具身智能能不能落地,最终拼的不是惊艳时刻,而是重复性、节拍和异常恢复。
更深一层看,GEN-1押注的,也不是传统意义上的大规模机器人数据,而是超大规模“物理交互经验”。Generalist认为,GEN-1的底座建立在超过50万小时的高保真物理交互数据之上,且这些数据主要不是机器人数据。在迁移到新任务、新机器人时,再用少量真机数据完成适配。早在GEN-0时代,它就已经把这套逻辑表述为机器人领域的“规模定律”,并声称在更大模型区间观察到类似“智能阈值”的现象。
说得更直白一点,Generalist在赌一件事:未来机器人世界也会像大语言模型世界一样,底座经验会越来越重要,真机数据会从“主粮”变成“微调料”。
如果说Generalist在回答哪些工位已经能赚钱,Figure回答的则是另一件事:人形机器人能不能作为一种完整产品成立。Figure则更像在证明人形机器人(humanoid)本身可以成为一种完整产品。它关心的不是抽象底座,而是把机器人本体、模型、机载推理、场景数据和商业部署整合成一套闭环。
Helix是Figure在2025年2月发布的一套视觉—语言—动作模型(VLA),能够把感知、语言理解和控制统一到一个模型里。它既能理解自然语言和场景,又能把这些理解实时转成身体动作。更关键的是,Helix不是停留在云端演示层,而是可以直接运行在机器人机载芯片上。这说明 Figure 押注的不是抽象底座,而是一条围绕自家机器人展开的产品化路线。
这条路很像电动车产业里的整车厂逻辑,而不是操作系统逻辑。模型为本体服务,本体为部署服务,部署再反哺数据。最终指向的,是一台可复制、可交付、可维护的人形机器人,而不是一个能卖给所有机器人的开放底座。后续Helix 02又把能力从桌面上的手部操作,推进到需要整个身体连续参与的任务。与此同时,Figure还提出用大规模第一视角人类视频,让机器人先学会人在家庭和建筑空间里通常如何移动、操作和完成任务。
Figure的野心,不是提供某一层能力,而是把“机器人本体”做成入口。
Physical Intelligence更像是在争夺“机器人时代的中间层”。它并不急着围绕某一款机器人讲产品故事,而是试图先做出一个可跨不同机器人形态迁移的基础模型。π0走的就是这条路:一边吸收互联网规模的视觉—语言知识,一边学习真实机器人动作数据,目标是把“看懂、听懂”和“会动、会控”连接到一起。它后续几乎所有工作,追问的都是同一个问题:能不能让一套底座跨机器人、跨任务、跨数据源复用。
如果说Figure更像在造整车,那么Physical Intelligence更像在做发动机和底盘平台。它关心的,不是哪一台机器人先卖出去,而是能不能先做出一层被不同机器人反复调用的通用底座。要是这条路成立,未来很多机器人公司的差异,可能不在模型是不是自研,而在谁更能把这层共通能力落到自己的产品和场景中。
Google DeepMind的路径又更高一层。它真正想抢占的,不是终端产品,也不只是动作控制,而是机器人如何理解任务、安排步骤和组织行动的那一层。Gemini Robotics 1.5的表述很能代表这种思路:一部分能力负责把视觉信息和指令转成动作,另一部分能力负责理解环境、拆解任务、规划步骤,并在需要时调用数字工具。它想提升的,不是机器人能不能做出一连串动作,而是机器人能不能真正理解任务,并把复杂事情一步一步做完。
这条路线最像未来机器人世界里的操作系统。它不一定最先把某个工位打穿,也不一定最先卖出最多机器人,但它试图定义一个更高的位置:谁来负责机器人理解世界、拆解任务、规划步骤,再把这些能力输送给不同的机器人本体。
如果说Figure想做整机入口,Physical Intelligence想做通用平台,那么DeepMind想占住的,是机器人如何“思考”的那一层。
把这四条路放在一起看,就会发现,今天具身智能真正的竞争,不是简单的模型竞争,而是产业分工位置的竞争。
Generalist在争“先赚钱”的位置。它关心的是,哪些简单但高价值的物理任务已经能被基础模型推过投资回报率(ROI)门槛。它的硬指标是成功率、节拍、恢复能力和少量真机适配。Figure在争“终端入口”的位置。它想把人形机器人做成产品,而不是做别人的底座。Physical Intelligence在争“通用能力层”的位置。它押注的是跨本体迁移,关心多数据源、多本体、多任务汇聚成统一基础策略的可能性。DeepMind在争“认知层”的位置。它想把大模型时代已经成熟的推理、规划和工具调用,延伸到物理世界。
如果只看未来两三年,我的判断是,最容易先拿到结果的,是Generalist和Figure。但两者的“近”,并不是同一种近。Generalist更接近某些窄工位开始形成正向经济账;Figure 更接近人形机器人作为完整产品逐步进入真实部署。
而从更长周期看,真正可能决定行业权力结构的,反而未必是最先出货的那一家,而可能是最先占住“底座层”和“认知层”的那一家。因为一旦机器人开始规模化部署,利润池往往会向平台层、模型层和系统层上移。先拿订单,未必就能最后定规则;先占住底座和认知层,才更有可能在产业成熟后掌握更大的价值。
所以,今天看具身智能,最怕的不是分歧太多,而是看不清楚分歧。未来这个产业大概率不会“一家公司通吃”,而会分化出不同层级、不同位置的玩家:有人负责证明机器人能赚到第一笔钱,有人负责把机器人做成可部署的终端产品,有人负责提供跨本体迁移的基础能力,还有人负责定义机器人如何理解世界、思考和行动。今天这四家公司,恰好站在这几种角色的雏形上。与其问谁最强,不如问谁占住了最难替代的位置。
从这个意义上讲,具身智能真正的战争,才刚刚开始。它已经不再只是实验室里的算法竞赛,也不只是社交媒体上的视频竞赛,而是在悄悄演变成一场围绕终端、本体、底座和认知层展开的产业制高点争夺战。
谁在做机器人,谁又在做机器人时代的“安卓”,几年后会越来越清楚。
(作者胡逸为数据工作者,著有《未来可期:与人工智能同行》一书)