首页 > 正文

具身智能开始分层：谁卖整机，谁做底座，谁定义机器人的大脑

2026-04-14 07:46

表面上看，大家像是在同一条赛道上冲刺；但如果把Generalist AI的GEN-1、Figure、Physical Intelligence和Google DeepMind放在一起，就会发现，它们真正争夺的，并不是同一个位置。

今天具身智能真正的分野，不在“都会不会做”，而在“各自想占住产业链的哪一层”。

有的公司在做更能干的机器人，有的公司在做更通用的机器人底座，还有的公司，已经在试图抢占机器人时代的上层操作系统。看不清这一层，就容易把不同公司的路线混成一句空洞的话：都在做“机器人大模型”。可真正重要的问题，不是谁更会讲“大模型”，而是谁更接近商业闭环，谁更有可能变成别人绕不过去的基础设施。

先看Generalist AI。它最值得注意的地方，不是会讲“通用智能”的大词，恰恰相反，它的表述非常像产业语言。2026年4月2日发布的技术长文《GEN-1：将具身基础模型扩展到“精通”阶段》（GEN-1: Scaling Embodied Foundation Models to Mastery）里，GEN-1 给出的核心指标很直接：在若干简单但高价值的物理任务上，平均成功率从 GEN-0的64%提高到99%，执行速度达到此前若干基线模型的约3倍，而且每项结果所需的机器人数据压到约1小时。文章也说得很清楚，GEN-1的目标不是“所有任务都解决”，而是让一批简单任务先跨过商业可行性的门槛。

这件事为什么这么重要？因为它悄悄改写了机器人行业的评价标准。过去大家最爱问的是：机器人会不会做这件事？现在Generalist把问题改成：它能不能稳定做、够不够快、出了意外能不能自己补救？也就是它所谓的“掌握”(mastery)，由可靠性、速度和即兴应变三部分组成。

这个定义的关键，不在于概念新，而在于它更接近工厂和仓配中心的真实尺度。真正有价值的，从来不是它做成过一次，而是它能连续做一百次、两百次，速度还不拖节拍。文章里展示的扫地机器人维修、盒子折叠、手机装箱等任务，都不是为了证明它有多聪明，而是为了证明它开始值钱。

具身智能能不能落地，最终拼的不是惊艳时刻，而是重复性、节拍和异常恢复。

更深一层看，GEN-1押注的，也不是传统意义上的大规模机器人数据，而是超大规模“物理交互经验”。Generalist认为，GEN-1的底座建立在超过50万小时的高保真物理交互数据之上，且这些数据主要不是机器人数据。在迁移到新任务、新机器人时，再用少量真机数据完成适配。早在GEN-0时代，它就已经把这套逻辑表述为机器人领域的“规模定律”，并声称在更大模型区间观察到类似“智能阈值”的现象。

说得更直白一点，Generalist在赌一件事：未来机器人世界也会像大语言模型世界一样，底座经验会越来越重要，真机数据会从“主粮”变成“微调料”。

如果说Generalist在回答哪些工位已经能赚钱，Figure回答的则是另一件事：人形机器人能不能作为一种完整产品成立。Figure则更像在证明人形机器人（humanoid）本身可以成为一种完整产品。它关心的不是抽象底座，而是把机器人本体、模型、机载推理、场景数据和商业部署整合成一套闭环。

Helix是Figure在2025年2月发布的一套视觉—语言—动作模型（VLA），能够把感知、语言理解和控制统一到一个模型里。它既能理解自然语言和场景，又能把这些理解实时转成身体动作。更关键的是，Helix不是停留在云端演示层，而是可以直接运行在机器人机载芯片上。这说明 Figure 押注的不是抽象底座，而是一条围绕自家机器人展开的产品化路线。

这条路很像电动车产业里的整车厂逻辑，而不是操作系统逻辑。模型为本体服务，本体为部署服务，部署再反哺数据。最终指向的，是一台可复制、可交付、可维护的人形机器人，而不是一个能卖给所有机器人的开放底座。后续Helix 02又把能力从桌面上的手部操作，推进到需要整个身体连续参与的任务。与此同时，Figure还提出用大规模第一视角人类视频，让机器人先学会人在家庭和建筑空间里通常如何移动、操作和完成任务。

Figure的野心，不是提供某一层能力，而是把“机器人本体”做成入口。

Physical Intelligence更像是在争夺“机器人时代的中间层”。它并不急着围绕某一款机器人讲产品故事，而是试图先做出一个可跨不同机器人形态迁移的基础模型。π0走的就是这条路：一边吸收互联网规模的视觉—语言知识，一边学习真实机器人动作数据，目标是把“看懂、听懂”和“会动、会控”连接到一起。它后续几乎所有工作，追问的都是同一个问题：能不能让一套底座跨机器人、跨任务、跨数据源复用。

如果说Figure更像在造整车，那么Physical Intelligence更像在做发动机和底盘平台。它关心的，不是哪一台机器人先卖出去，而是能不能先做出一层被不同机器人反复调用的通用底座。要是这条路成立，未来很多机器人公司的差异，可能不在模型是不是自研，而在谁更能把这层共通能力落到自己的产品和场景中。

Google DeepMind的路径又更高一层。它真正想抢占的，不是终端产品，也不只是动作控制，而是机器人如何理解任务、安排步骤和组织行动的那一层。Gemini Robotics 1.5的表述很能代表这种思路：一部分能力负责把视觉信息和指令转成动作，另一部分能力负责理解环境、拆解任务、规划步骤，并在需要时调用数字工具。它想提升的，不是机器人能不能做出一连串动作，而是机器人能不能真正理解任务，并把复杂事情一步一步做完。

这条路线最像未来机器人世界里的操作系统。它不一定最先把某个工位打穿，也不一定最先卖出最多机器人，但它试图定义一个更高的位置：谁来负责机器人理解世界、拆解任务、规划步骤，再把这些能力输送给不同的机器人本体。

如果说Figure想做整机入口，Physical Intelligence想做通用平台，那么DeepMind想占住的，是机器人如何“思考”的那一层。

把这四条路放在一起看，就会发现，今天具身智能真正的竞争，不是简单的模型竞争，而是产业分工位置的竞争。

Generalist在争“先赚钱”的位置。它关心的是，哪些简单但高价值的物理任务已经能被基础模型推过投资回报率（ROI）门槛。它的硬指标是成功率、节拍、恢复能力和少量真机适配。Figure在争“终端入口”的位置。它想把人形机器人做成产品，而不是做别人的底座。Physical Intelligence在争“通用能力层”的位置。它押注的是跨本体迁移，关心多数据源、多本体、多任务汇聚成统一基础策略的可能性。DeepMind在争“认知层”的位置。它想把大模型时代已经成熟的推理、规划和工具调用，延伸到物理世界。

如果只看未来两三年，我的判断是，最容易先拿到结果的，是Generalist和Figure。但两者的“近”，并不是同一种近。Generalist更接近某些窄工位开始形成正向经济账；Figure 更接近人形机器人作为完整产品逐步进入真实部署。

而从更长周期看，真正可能决定行业权力结构的，反而未必是最先出货的那一家，而可能是最先占住“底座层”和“认知层”的那一家。因为一旦机器人开始规模化部署，利润池往往会向平台层、模型层和系统层上移。先拿订单，未必就能最后定规则；先占住底座和认知层，才更有可能在产业成熟后掌握更大的价值。

所以，今天看具身智能，最怕的不是分歧太多，而是看不清楚分歧。未来这个产业大概率不会“一家公司通吃”，而会分化出不同层级、不同位置的玩家：有人负责证明机器人能赚到第一笔钱，有人负责把机器人做成可部署的终端产品，有人负责提供跨本体迁移的基础能力，还有人负责定义机器人如何理解世界、思考和行动。今天这四家公司，恰好站在这几种角色的雏形上。与其问谁最强，不如问谁占住了最难替代的位置。

从这个意义上讲，具身智能真正的战争，才刚刚开始。它已经不再只是实验室里的算法竞赛，也不只是社交媒体上的视频竞赛，而是在悄悄演变成一场围绕终端、本体、底座和认知层展开的产业制高点争夺战。

谁在做机器人，谁又在做机器人时代的“安卓”，几年后会越来越清楚。

（作者胡逸为数据工作者，著有《未来可期：与人工智能同行》一书）

🔍 相关推荐

西班牙加快发展电动汽车产业（国际视点）中西携手打造共同成长、共同受益的生态体系

柳海光连任上海市足协主席，范志毅等9人当选副主席

特朗普称12日有34艘船只通过霍尔木兹海峡

特朗普称伊朗致电美方说希望达成协议

西班牙首相桑切斯：中国注定要在世界的未来扮演关键角色

特朗普真是什么都敢发啊