机器人数据链崛起：从印度工厂到百亿人形机器人市场

机器人开始「吃数据」：从印度数据工厂到百亿美元人形机器人的隐秘生产链

在印度的某个服装加工厂中，工人们正在像往常一样整理布料，但这次不同的是，他们的头上多了一个摄像头，用来拍摄自己工作时的第一视角视频。

这些视频，将会在处理之后成为数据资产，出售给那些需要大量数据来训练机器人的具身智能公司。

类似的生意从今年开始，正在加速形成一条新的产业链，而这条产业链的兴起，就源于具身智能行业目前所遇到的最大卡点：数据。

「今年需求明显起来了。」一位从事机器人数据采集的业内人士告诉42号电波，自己团队所服务的欧美机器人公司，正在大量采购人类工作数据。目前团队已经有近百名采集员参与到机器人训练数据生产中，一个月能稳定产出数千小时人类第一视角视频数据。

采集员需要按照标准流程，完成整理衣服、厨房归纳、抓取物品等任务，过程中佩戴头部摄像头，有些任务还要用数据手套记录更精细的手部动作。

「以前行业都在聊模型、聊硬件，现在越来越多人开始问，数据能不能稳定供给？」

大家开始清晰地意识到，模型能力迟迟无法突破，数据规模不足就是最大的问题。

这也是为什么，即便如今的模型架构越来越复杂，机器人距离真正进入家庭和复杂场景，依然很远。

因为模型缺少足够多的现实经验。

此前，Figure创始人Brett Adcock曾抛出过一个很直接的观点：「如果打个响指，真正需要的海量数据就能塞进Helix模型的话，我们立刻就能搞定通用机器人。」

可问题在于，数据从哪里来？

一小时数据，是怎么生产出来的？

今年2月，一个研究结果开始让行业兴奋起来。

英伟达团队发布了EgoScale，通过超2万小时带动作标注的人类第一视角视频预训练模型，再用少量机器人数据微调，就可以让Sharpa Wave 22自由度灵巧手完成拧瓶盖、叠衣服等任务。

更重要的是，研究发现，随着人类数据规模增加，模型表现会稳定提升，这种提升是可预测的。

这项研究对于具身行业来说非常重要，毕竟一条可以Scaling的数据路线，意味着机器人能力的增长，有机会像大模型一样，进入一个「更多数据，带来更强能力」的正循环。

过去很长时间里，具身行业一直有一种焦虑，即便投入更多资金，模型能力的提升依然高度不可预测。因为真实世界数据太少、成本太高，很少有人敢在数据领域投入巨大资金。

但EgoScale某种程度上证明了一件事，至少在人类第一视角数据（Ego Data）上，规模确实能够给灵巧手操作带来稳定收益。

与此同时也有越来越多机器人公司开始走向大量人类数据+少量机器人本体数据的路径。

人类第一视角视频，负责告诉模型人是怎么完成任务的，机器人数据，则负责让模型学会自己的身体应该怎么做。

所以Ego Data的主要价值是作为一种更容易规模化的先验知识，让机器人先理解物理世界，再通过少量真机数据完成适配。

于是，围绕Ego Data的新产业链，也开始在今年明显加速。

人类在头部或者胸前戴上一个摄像头，然后执行具体任务，比如整理衣物、收纳厨房、分拣包裹时，摄像头会记录人类工作时的第一视角视频。

从某种程度上说，人类本身就是世界上最成熟的通用机器人。进入厨房时，人会自然判断先放什么、后放什么，空间不够时，会腾出另一只手。碰到易碎品时，会下意识调整力度。

这些看似本能的动作背后，实际上隐藏着大量空间理解、任务规划和物体交互逻辑。

而过去，机器人几乎从未系统获得过这些经验。

但Ego Data并不是随便拍视频，并且拍足够规模的视频也不是最大难点，关键在于如何把这些经验，变成一种可以被模型真正使用的数据产品。

一位在今年开始加速布局Ego数据的从业者告诉42号电波，真正的数据采集，通常从客户发来的一份任务specification（规格文档）开始。

这类文档里，并不会简单写一句「采厨房整理数据」，往往都会有明确的规定：

任务类型是什么、双手是否必须完整进入画面、摄像头需要位于头部还是胸前、动作是否允许中断、环境需要多少种变化、需不需要失败样本、最终交付格式是否要兼容训练框架。

例如同样是整理厨房，客户可能要求：连续完成打开柜门、寻找容器、腾挪空间、取放物品、关门等多个步骤，中间不能跳帧，也不能出现严重遮挡。

某种程度上说，这更像是在生产一种工业品，采集现场的整个过程也远比想象中更「工厂化」。

在一些数采中心里，采集员会轮流进入被布置好的厨房、衣帽间、货架区，按照统一SOP重复执行任务。

有人负责整理衣物，有人反复练习抓取不同尺寸的物品，也有人专门采集厨房归纳和搬运的数据。

同一个动作，往往还需要由不同身高、不同惯用手、不同操作习惯的人重复完成，试图穷尽物理世界中可能出现的各种情况，毕竟机器人最终面对的是复杂现实世界，不是单一标准答案。

同样是把杯子放进柜子里，有的人先腾空间，有的人会换一只手，有的人习惯先打开柜门，这些细微差异，恰恰构成了机器人泛化能力的一部分。

所以对许多具身模型来说，它们需要学习的，就是「人类通常会怎么完成这件事」的逻辑。

这类数据相比较真机数据，更容易达成批量生产，在行业巨大的需求面前，只要规模跟得上、人力成本低，就有了盈利的基础，也相对容易产生现金流。

但如果数据不符合客户要求的话，就需要返工，真正客户验收通过的数据，远少于原始拍摄时长，可直接进入训练流程的有效时长更重要。

不同类型的数据，价值差异巨大

在「数据金字塔」中，最底层是互联网数据，几乎没有什么采集成本的同时，也有不小的规模。

机器人可以从中学习物体长什么样、厨房的大致布局。但问题也很明显，它只能帮助机器人「知道」，很难帮助机器人「做到」。现实世界真正困难的地方，是动作，摩擦力、重量、材质变化、空间限制、碰撞风险，这些都无法只靠普通视频学会。

再往上是更高一层的人类数据，Ego Data就是其中最重要的部分，它可以从第一视角告诉模型人是怎么操作的，这部分的视频数据可以大规模用于预训练，就像EgoScale中所做的那样。

但机器人最终还要解决自己的身体应该怎么做的问题。同样是拧瓶盖，人手轻松完成，机器人却可能反复失败。

于是，数据手套带来的感知数据开始越来越重要，普通的Ego Data只能告诉模型人看到了什么、完成了什么任务。可机器人最终还需要知道什么时候该加大力度，什么时候需要放松。

这些细微动作，很难仅靠视频推断出来，所以越来越多公司开始尝试把手部动作捕捉、姿态估计、关节轨迹与视觉数据进行对齐。

视频负责提供空间理解，手套负责提供动作细节，而遥操的真机数据则进一步帮助机器人理解自己的身体该如何执行。

不过目前行业还存在一个很现实的问题，手套标准仍然很不统一。不同设备的采样频率、关节定义、精度和动作表达方式差异很大，如何把人类动作稳定映射到不同机器人身体，还是一个不小的卡点。

所以如果不戴数据手套，只用头戴摄像头拍摄，这时候Ego Data的价格并不算太高，可一旦加上数据手套，价格就会迅速上升。

金字塔再往上去就是仿真数据，通过数字孪生环境，机器人可以在虚拟世界中高速训练，反复经历数百万次抓取、导航和避障。现实中一个月才能完成的数据量，在仿真环境里可能几天就能跑完。

不过仿真终究不是现实世界，虽然量大且成本低，但现实中的摩擦力、材质变化、反光等各种偶然因素，很难被完全复刻，这也是行业里常提到的「Sim-to-Real Gap」，机器人在仿真中学得很好，一旦走入真实环境，能力往往会大打折扣。

而金字塔的顶层，就是质量最高、也最贵最稀缺的真机数据，主要是靠操作员遥操等方式，控制机器人完成具体任务，机器人会同步记录视觉、动作、控制信号和传感器状态。

与人类数据不同，它天然就在机器人的动作空间里，模型不用再费力理解人类动作如何映射到机器人身体。另外真机数据也包含其在应用时所产出的自主工作数据，但现在的机器人普遍还没有大规模应用，所产出的数据同样稀少。

而且真机数据的关键问题就是生产效率非常低，要想提高数据规模的话，就需要增加更多的机器人和操作员，并且还有高昂的场地和设备损耗成本，都会迅速推高价格。

多位业内人士给出的价格情况大概是，最简单的Ego Data往往只需要几十元一小时，而涉及遥操的机器人本体数据，价格通常会上升到数百甚至上千元一小时。

在不同厂商机器人模型的训练过程中，数据金字塔的各层所发挥的作用也各不相同，因此整个行业也涌现出了仿真、人类第一视角数据等侧重点各不相同的上游数据公司。

谁在交易这些数据？

当一个规模巨大的行业兴起时，最先盈利的往往是上游「卖水人」。

具身智能行业同样如此，过去一两年内，全球范围内涌现出了非常多的机器人初创公司，各行各业的人才都在往这个领域聚集。

几乎每天都有新的公司宣布完成融资，国内百亿估值的公司开始越来越多，一些公司甚至走上了IPO的道路，目光转到国外，Figure在去年完成C轮融资后，估值已经达到了390亿美元，位列人形机器人公司第一。

大家都想做通用人形机器人，又都需要需要海量数据，同时因为资本的不断涌入，整个赛道还处于并不缺钱的状态。

所以在这些有强烈数据需求、又有充足研发资金的公司背后，机器人产业上游的「卖水人」越来越多，因此逐渐形成了机器人产业的数据生产链。

而且随着行业发展，围绕机器人训练所需的数据，这些上游公司也开始形成了明显的分层，从目前的行业结构来看，大致可以分成五类玩家。

第一类是低成本数据工厂，采集的重点是Ego Data，在印度、泰国等地，已经有越来越多的团队开始组织低成本劳动力，搭建数据采集网络。

比如近期就有一家叫Neocambrian AI的初创公司，已经在印度启动了一项机器人数据工厂项目，为具身模型收集人类动作数据，尤其是Ego Data，其创始人也特别强调了印度拥有庞大的劳动力，也是其发展物理AI数据集的一大优势。

数据采集员戴上头部摄像设备、动作捕捉手套，按照任务流程完成工作，再由后端团队进行清洗、标注、验收，最后交付给机器人公司。

从商业模式看，它们和早年服务大模型的数据标注公司很像，只是过去标的是文本、图片和语音，现在开始生产物理世界经验。

一位行业人士也告诉我们，过去一年里，明显感觉到海外客户需求在增加。尤其是欧美机器人公司，「他们对数据规格会更明确，知道自己要什么。」

因为机器人数据并不是「拍视频」那么简单，许多客户真正需要是一套可以直接进入训练管线的数据，包括时间序列、多视角画面、动作轨迹、传感器状态、手部姿态、环境metadata，以及最终适配的训练格式。

在这个过程中，越来越多公司也发现，仅仅依赖低成本人力，其实很难形成长期壁垒。未来这些低成本数据工厂，最大的竞争壁垒还是要看交付的数据能不能更容易地被直接使用。

而且问题也很现实，这种业务天然容易商品化，一个团队能做，另一个团队理论上也能做，价格逐渐透明后，利润空间往往会被压缩。

所以低成本交付能力，是它们最大的优势，但也可能成为天花板。

第二类是动作采集与对齐层，比起单纯采视频，这类玩家试图解决「动作如何被机器真正理解」的问题，它们的重点不只是数据量，动作表达更加重要。

比如数据手套、动捕、手部追踪、动作重定向、操作采集接口。

因为机器人真正困难的部分，很多时候不是看不看得懂，而是怎么动。同样是抓一个杯子，不同机器人灵巧手的自由度不同、指节结构不同、力控能力不同。

这就会产生一个关键问题，人类动作，如何稳定地被机器理解、执行和泛化。

这不仅是技术和工程问题，更是如何大规模产出和系统化处理真实世界经验的挑战。而随着具身智能成为全球AI发展的新热点，这条「吃数据」的产业链，正在逐步清晰地形成。

评论 (0)