加拿大

机器人数据链崛起:从印度工厂到百亿人形机器人市场

虎嗅
2026年6月13日 03:19

机器人开始「吃数据」:从印度数据工厂到百亿美元人形机器人的隐秘生产链


在印度的某个服装加工厂中,工人们正在像往常一样整理布料,但这次不同的是,他们的头上多了一个摄像头,用来拍摄自己工作时的第一视角视频。


这些视频,将会在处理之后成为数据资产,出售给那些需要大量数据来训练机器人的具身智能公司。


类似的生意从今年开始,正在加速形成一条新的产业链,而这条产业链的兴起,就源于具身智能行业目前所遇到的最大卡点:数据。


「今年需求明显起来了。」一位从事机器人数据采集的业内人士告诉42号电波,自己团队所服务的欧美机器人公司,正在大量采购人类工作数据。目前团队已经有近百名采集员参与到机器人训练数据生产中,一个月能稳定产出数千小时人类第一视角视频数据。


采集员需要按照标准流程,完成整理衣服、厨房归纳、抓取物品等任务,过程中佩戴头部摄像头,有些任务还要用数据手套记录更精细的手部动作。


「以前行业都在聊模型、聊硬件,现在越来越多人开始问,数据能不能稳定供给?」


大家开始清晰地意识到,模型能力迟迟无法突破,数据规模不足就是最大的问题。


这也是为什么,即便如今的模型架构越来越复杂,机器人距离真正进入家庭和复杂场景,依然很远。


因为模型缺少足够多的现实经验。


此前,Figure创始人Brett Adcock曾抛出过一个很直接的观点:「如果打个响指,真正需要的海量数据就能塞进Helix模型的话,我们立刻就能搞定通用机器人。」


可问题在于,数据从哪里来?


一小时数据,是怎么生产出来的?


今年2月,一个研究结果开始让行业兴奋起来。


英伟达团队发布了EgoScale,通过超2万小时带动作标注的人类第一视角视频预训练模型,再用少量机器人数据微调,就可以让Sharpa Wave 22自由度灵巧手完成拧瓶盖、叠衣服等任务。



更重要的是,研究发现,随着人类数据规模增加,模型表现会稳定提升,这种提升是可预测的。


这项研究对于具身行业来说非常重要,毕竟一条可以Scaling的数据路线,意味着机器人能力的增长,有机会像大模型一样,进入一个「更多数据,带来更强能力」的正循环。


过去很长时间里,具身行业一直有一种焦虑,即便投入更多资金,模型能力的提升依然高度不可预测。因为真实世界数据太少、成本太高,很少有人敢在数据领域投入巨大资金。


但EgoScale某种程度上证明了一件事,至少在人类第一视角数据(Ego Data)上,规模确实能够给灵巧手操作带来稳定收益。



与此同时也有越来越多机器人公司开始走向大量人类数据+少量机器人本体数据的路径。


人类第一视角视频,负责告诉模型人是怎么完成任务的,机器人数据,则负责让模型学会自己的身体应该怎么做。


所以Ego Data的主要价值是作为一种更容易规模化的先验知识,让机器人先理解物理世界,再通过少量真机数据完成适配。


于是,围绕Ego Data的新产业链,也开始在今年明显加速。


人类在头部或者胸前戴上一个摄像头,然后执行具体任务,比如整理衣物、收纳厨房、分拣包裹时,摄像头会记录人类工作时的第一视角视频。


从某种程度上说,人类本身就是世界上最成熟的通用机器人。进入厨房时,人会自然判断先放什么、后放什么,空间不够时,会腾出另一只手。碰到易碎品时,会下意识调整力度。


这些看似本能的动作背后,实际上隐藏着大量空间理解、任务规划和物体交互逻辑。


而过去,机器人几乎从未系统获得过这些经验。



但Ego Data并不是随便拍视频,并且拍足够规模的视频也不是最大难点,关键在于如何把这些经验,变成一种可以被模型真正使用的数据产品。


一位在今年开始加速布局Ego数据的从业者告诉42号电波,真正的数据采集,通常从客户发来的一份任务specification(规格文档)开始。


这类文档里,并不会简单写一句「采厨房整理数据」,往往都会有明确的规定:


任务类型是什么、双手是否必须完整进入画面、摄像头需要位于头部还是胸前、动作是否允许中断、环境需要多少种变化、需不需要失败样本、最终交付格式是否要兼容训练框架。


例如同样是整理厨房,客户可能要求:连续完成打开柜门、寻找容器、腾挪空间、取放物品、关门等多个步骤,中间不能跳帧,也不能出现严重遮挡。


某种程度上说,这更像是在生产一种工业品,采集现场的整个过程也远比想象中更「工厂化」。


在一些数采中心里,采集员会轮流进入被布置好的厨房、衣帽间、货架区,按照统一SOP重复执行任务。


有人负责整理衣物,有人反复练习抓取不同尺寸的物品,也有人专门采集厨房归纳和搬运的数据。


同一个动作,往往还需要由不同身高、不同惯用手、不同操作习惯的人重复完成,试图穷尽物理世界中可能出现的各种情况,毕竟机器人最终面对的是复杂现实世界,不是单一标准答案。


同样是把杯子放进柜子里,有的人先腾空间,有的人会换一只手,有的人习惯先打开柜门,这些细微差异,恰恰构成了机器人泛化能力的一部分。


所以对许多具身模型来说,它们需要学习的,就是「人类通常会怎么完成这件事」的逻辑。


这类数据相比较真机数据,更容易达成批量生产,在行业巨大的需求面前,只要规模跟得上、人力成本低,就有了盈利的基础,也相对容易产生现金流。


但如果数据不符合客户要求的话,就需要返工,真正客户验收通过的数据,远少于原始拍摄时长,可直接进入训练流程的有效时长更重要。


不同类型的数据,价值差异巨大


在「数据金字塔」中,最底层是互联网数据,几乎没有什么采集成本的同时,也有不小的规模。


机器人可以从中学习物体长什么样、厨房的大致布局。但问题也很明显,它只能帮助机器人「知道」,很难帮助机器人「做到」。现实世界真正困难的地方,是动作,摩擦力、重量、材质变化、空间限制、碰撞风险,这些都无法只靠普通视频学会。


再往上是更高一层的人类数据,Ego Data就是其中最重要的部分,它可以从第一视角告诉模型人是怎么操作的,这部分的视频数据可以大规模用于预训练,就像EgoScale中所做的那样。


但机器人最终还要解决自己的身体应该怎么做的问题。同样是拧瓶盖,人手轻松完成,机器人却可能反复失败。


于是,数据手套带来的感知数据开始越来越重要,普通的Ego Data只能告诉模型人看到了什么、完成了什么任务。可机器人最终还需要知道什么时候该加大力度,什么时候需要放松。


这些细微动作,很难仅靠视频推断出来,所以越来越多公司开始尝试把手部动作捕捉、姿态估计、关节轨迹与视觉数据进行对齐。


视频负责提供空间理解,手套负责提供动作细节,而遥操的真机数据则进一步帮助机器人理解自己的身体该如何执行。



不过目前行业还存在一个很现实的问题,手套标准仍然很不统一。不同设备的采样频率、关节定义、精度和动作表达方式差异很大,如何把人类动作稳定映射到不同机器人身体,还是一个不小的卡点。


所以如果不戴数据手套,只用头戴摄像头拍摄,这时候Ego Data的价格并不算太高,可一旦加上数据手套,价格就会迅速上升。


金字塔再往上去就是仿真数据,通过数字孪生环境,机器人可以在虚拟世界中高速训练,反复经历数百万次抓取、导航和避障。现实中一个月才能完成的数据量,在仿真环境里可能几天就能跑完。


不过仿真终究不是现实世界,虽然量大且成本低,但现实中的摩擦力、材质变化、反光等各种偶然因素,很难被完全复刻,这也是行业里常提到的「Sim-to-Real Gap」,机器人在仿真中学得很好,一旦走入真实环境,能力往往会大打折扣。


而金字塔的顶层,就是质量最高、也最贵最稀缺的真机数据,主要是靠操作员遥操等方式,控制机器人完成具体任务,机器人会同步记录视觉、动作、控制信号和传感器状态。


与人类数据不同,它天然就在机器人的动作空间里,模型不用再费力理解人类动作如何映射到机器人身体。另外真机数据也包含其在应用时所产出的自主工作数据,但现在的机器人普遍还没有大规模应用,所产出的数据同样稀少。


而且真机数据的关键问题就是生产效率非常低,要想提高数据规模的话,就需要增加更多的机器人和操作员,并且还有高昂的场地和设备损耗成本,都会迅速推高价格。


多位业内人士给出的价格情况大概是,最简单的Ego Data往往只需要几十元一小时,而涉及遥操的机器人本体数据,价格通常会上升到数百甚至上千元一小时。


在不同厂商机器人模型的训练过程中,数据金字塔的各层所发挥的作用也各不相同,因此整个行业也涌现出了仿真、人类第一视角数据等侧重点各不相同的上游数据公司。


谁在交易这些数据?


当一个规模巨大的行业兴起时,最先盈利的往往是上游「卖水人」。


具身智能行业同样如此,过去一两年内,全球范围内涌现出了非常多的机器人初创公司,各行各业的人才都在往这个领域聚集。


几乎每天都有新的公司宣布完成融资,国内百亿估值的公司开始越来越多,一些公司甚至走上了IPO的道路,目光转到国外,Figure在去年完成C轮融资后,估值已经达到了390亿美元,位列人形机器人公司第一。


大家都想做通用人形机器人,又都需要需要海量数据,同时因为资本的不断涌入,整个赛道还处于并不缺钱的状态。


所以在这些有强烈数据需求、又有充足研发资金的公司背后,机器人产业上游的「卖水人」越来越多,因此逐渐形成了机器人产业的数据生产链。


而且随着行业发展,围绕机器人训练所需的数据,这些上游公司也开始形成了明显的分层,从目前的行业结构来看,大致可以分成五类玩家。



第一类是低成本数据工厂,采集的重点是Ego Data,在印度、泰国等地,已经有越来越多的团队开始组织低成本劳动力,搭建数据采集网络。


比如近期就有一家叫Neocambrian AI的初创公司,已经在印度启动了一项机器人数据工厂项目,为具身模型收集人类动作数据,尤其是Ego Data,其创始人也特别强调了印度拥有庞大的劳动力,也是其发展物理AI数据集的一大优势。


数据采集员戴上头部摄像设备、动作捕捉手套,按照任务流程完成工作,再由后端团队进行清洗、标注、验收,最后交付给机器人公司。


从商业模式看,它们和早年服务大模型的数据标注公司很像,只是过去标的是文本、图片和语音,现在开始生产物理世界经验。


一位行业人士也告诉我们,过去一年里,明显感觉到海外客户需求在增加。尤其是欧美机器人公司,「他们对数据规格会更明确,知道自己要什么。」


因为机器人数据并不是「拍视频」那么简单,许多客户真正需要是一套可以直接进入训练管线的数据,包括时间序列、多视角画面、动作轨迹、传感器状态、手部姿态、环境metadata,以及最终适配的训练格式。


在这个过程中,越来越多公司也发现,仅仅依赖低成本人力,其实很难形成长期壁垒。未来这些低成本数据工厂,最大的竞争壁垒还是要看交付的数据能不能更容易地被直接使用。


而且问题也很现实,这种业务天然容易商品化,一个团队能做,另一个团队理论上也能做,价格逐渐透明后,利润空间往往会被压缩。


所以低成本交付能力,是它们最大的优势,但也可能成为天花板。


第二类是动作采集与对齐层,比起单纯采视频,这类玩家试图解决「动作如何被机器真正理解」的问题,它们的重点不只是数据量,动作表达更加重要。


比如数据手套、动捕、手部追踪、动作重定向、操作采集接口。


因为机器人真正困难的部分,很多时候不是看不看得懂,而是怎么动。同样是抓一个杯子,不同机器人灵巧手的自由度不同、指节结构不同、力控能力不同。


这就会产生一个关键问题,人类动作,如何稳定地被机器理解、执行和泛化。


这不仅是技术和工程问题,更是如何大规模产出和系统化处理真实世界经验的挑战。而随着具身智能成为全球AI发展的新热点,这条「吃数据」的产业链,正在逐步清晰地形成。

本文内容版权归原作者所有。

阅读原文 ↗

评论 (0)

暂无评论,快来抢沙发吧!