具身智能 – 共识未来

一、技术原理
定义与核心机制：
Figure AI 的核心并非单纯制造“像人的机器”，而是构建“具身智能的端到端闭环”。
其技术护城河在于自主研发的 Helix 视觉-语言-动作 (VLA) 模型，该模型摒弃了传统机器人“感知-规划-控制”分层处理的旧范式，实现了从像素/指令到动作的直接映射。
Helix 采用类似于人类认知的 “系统1 + 系统2” 双架构设计 ：
系统2 (慢思考)： 70亿参数的视觉语言模型 (VLM)，负责理解语义（如“把那个红色的杯子给我”），运行频率约 7-9Hz，负责高层决策。
系统1 (快反应)： 8000万参数的视觉运动 Transformer，负责毫秒级的身体控制（如手指调整力度），运行频率高达 200Hz（远超行业平均水平如特斯拉 Optimus 的 50Hz）。
两者通过异步推理机制协作，让机器人既能理解复杂逻辑，又能实现类似小脑的精准运动控制。
形象化比喻：
如果传统机器人是“提线木偶”（需要工程师预先写好每一行代码来规定动作）；
那 Figure AI 就是“拥有双重人格的运动员”：
一个是大脑（系统2），像哲学家一样思考“我要做什么”；
一个是小脑（系统1），像奥运选手一样通过肌肉记忆瞬间完成动作，无需大脑时刻干预。
一句话本质：
从“预编程的机械自动化”，到“大模型驱动的通用自主智能”。

二、美国谁在做
代表企业：Figure AI Inc.
成立时间： 2022年5月，美国加利福尼亚州桑尼维尔。
创始人： Brett Adcock（被业内称为“小马斯克”，Archer Aviation 和 Vettery 创始人）。
核心产品：
Figure 01/02： 工业级验证机型，已进入宝马工厂实测。
Figure 03： 2025年发布的量产主力机型，面向家庭与工业双场景，目标单价降至5万美元以下
Helix 模型： 专有的端到端具身智能大模型。
融资情况： 累计融资超17亿美元，2025年C轮融资后估值达 390亿美元 。
投资方： 微软、英伟达、亚马逊、杰夫·贝索斯、英特尔、OpenAI（早期合作）。
团队背景： 汇聚了波士顿动力、特斯拉 Optimus、Google DeepMind 的核心技术人才，录用率仅0.24% 。
象征意义：
Figure AI 的崛起象征着机器人行业迎来了 “iPhone 时刻” ——
硬件（机体）不再是核心壁垒，软件（模型）定义了一切。它证明了通用大模型可以走出屏幕，直接操控物理世界，成为解决全球劳动力短缺的实体终端。

三、做到哪期
当前阶段：
商业化验证： Figure 02 已在宝马斯巴达堡工厂成功参与汽车底盘装配，任务成功率提升7倍。
量产准备： 自建 BotQ 工厂，开启“机器人制造机器人”模式，2025年首期产能达1.2万台。
技术闭环： 实现了 Helix 模型“系统1”（动作）与“系统2”（认知）的完全跑通，并开始通过 Go-Big 项目构建全球最大的人形机器人数据集。
阶段意义：
从“实验室里的杂技演员”迈向“工厂和家庭里的蓝领工人”。
这是具身智能从 Demo 演示 跨越到 真实场景落地 (Real-world Deployment) 的分水岭。

四、为什么中国这里没做到（或存在差距）
模型架构的“高频”壁垒
虽然中国拥有强大的硬件制造能力，但在 200Hz 高频端到端控制模型（系统1）上仍有差距。国内多数模型仍依赖开源架构微调，且动作响应频率往往低于 Figure 的水平，导致在处理动态平衡和精细操作时不如 Helix 丝滑。
数据飞轮的缺失
Figure 通过与 Brookfield（拥有10万户家庭数据）和宝马的合作，建立了真实的 Sim-to-Real（仿真到现实） 数据闭环。国内企业多依赖合成数据或有限的实验室数据，缺乏海量真实物理世界的交互数据积累。
垂直整合的深度
Figure 选择了 “OpenAI + 波士顿动力” 的合体模式，既做最强的大模型，又自建工厂做硬件。国内目前多为“软硬分离”或“重硬轻软”，缺乏像 Figure 这样在单一组织内打通从神经网络权重到电机扭矩的全链路能力。
资本聚集度
Figure AI 单轮融资超10亿美元，估值390亿美元，这种 “饱和式救援”般的资本投入 允许其购买数千张 H100 GPU 训练专有模型。国内机器人赛道资本相对分散，难以支撑这种量级的算力基础设施建设。

五、中国可以怎么补位/投资/合作
供应链切入（已验证路径）
现状： 中国实际上已经是 Figure AI 的“隐形制造车间”。长盈精密 等中国企业已进入其核心供应链，提供关节模组等关键部件。
策略： 利用“苹果链”经验，从零部件供应商升级为模组/整机代工方，赚取制造红利。
差异化补位：家庭服务场景
Figure 目前主要攻克工业场景，家庭场景尚在起步（Figure 03 刚发布）。中国企业可利用国内丰富的家庭场景和老龄化需求，在 “特定任务模型”（如做饭、护理）上实现弯道超车，而非直接硬刚通用大模型。
投资策略
关注“大脑”而非“四肢”： 重点寻找具备 自主研发 VLA（视觉-语言-动作）模型 能力的团队，而非单纯做本体集成的硬件公司。
寻找“数据矿主”： 投资那些拥有物流、工厂、养老院等真实场景数据入口的企业，因为在具身智能时代，场景数据比代码更值钱 。
合作方向
开源生态利用： 既然 Figure 开源了部分系统2 (VLM) 技术，国内开发者应利用这一语义理解底座，集中精力攻克本土化的动作控制（系统1）和应用层开发。

结语
Figure AI 的出现宣告了一个事实：
机器人不再是“不仅笨而且贵的工具”，而是“穿了铁甲的 AI 代理”。
当大模型拥有了身体，它就不再只是生成文本，而是开始重塑物理世界的生产力 。

《Figure AI：给物理世界装上“通用大脑”》