清华博士团队:我们不是数据驱动,是本能驱动 —— 橡木果机器人探索操作新范式
【科技创新】 2026年初,当所有人都在谈论视觉-语言-动作(VLA)模型、世界模型和端到端学习时,有9个人选择了另辟蹊径。他们从2016年到2023年,8位清华博士生全部加入由姜峣老师发起的‘橡木果机器人’项目,挑战主流的‘数据驱动’AI路径。

姜峣在哈佛做博士后时研究人脑如何控制手。他发现,虽然语言需要后天学习,但抓取这种基本操作,却似乎人人都有本能。无论文化、教育背景如何,抓取动作几乎都是一致的,这让他意识到操作背后可能隐藏着某种自然逻辑。
姜峣说:‘操作有本能,而语言没有。’这个信念让他与数据驱动的AI浪潮背道而驰。在过去八年里,他们没有追热点、没有融资,甚至不愿露面,直到2025年底,当VLA模型在工业场景频频失灵,世界模型的仿真能力撞上物理规律的天花板,行业才开始重新审视‘本能驱动’的价值。

反共识的起点:我们不是数据驱动,是本能驱动
‘你们跟市面上其他具身智能团队最大的不同是什么?’凤凰网科技问道。
姜峣回答:‘最大的区别在于,大家更多是数据驱动、自上而下,我们是本能驱动、自下而上。这个差异是根本性的。’
在哈佛的神经科学实验室,姜峣曾观察到一个小实验:‘你不对一个小孩做语言训练,他一辈子也学不会说话。让他学中文就说中文,学英文就说英文——语言完全是后天数据驱动的。但操作不是。比如把桌上一瓶水抓起来,从小到大没有人教过我们怎么抓,但每个人抓取的行为模式非常相似。’
这说明背后一定有某种东西在驱动这个行为模式——这就是本能。姜峣的这一发现,引导他回到清华组建实验室,从2018年起坚定沿着这个方向走。

“硬件没有最好的预训练模型”
‘你什么时候发现行业也开始往这个方向思考了?’
姜峣说:‘一开始大家是不太认可的。我们这么多年一直没有在行业里宣扬这条技术路线,一方面是团队太关注技术,另一方面是因为——操作最底层的逻辑是通过接触改变环境,这跟语言、图像处理完全不一样。接触行为非常复杂,需要触觉、需要对本能的深刻理解。’
2021年,团队提出了新的突破:他们构建了一个基于滑移感知的底层本能反射模型。‘不需要数据,也不需要建模,根据滑移的本能反射,在物体抓取过程中就可以自主选择最合适的力,既不过大把东西抓坏,也不过小让它掉下来。’姜峣说。
这也让团队更加坚定了信念:本能确实存在。
‘从那以后就水到渠成了。’姜峣笑着说道,‘我们开始探讨:人有哪些操作本能?怎么赋予机器人?在这个过程中,也认识到触觉非常重要。有人专门研究触觉,有人研究本能跟肌肉(也就是电机)的绑定,大家背靠背配合。’

“万有引力里没有任何运动参数,却支配了所有运动”
‘那今年大家转向世界模型,你觉得能解决问题吗?’
姜峣回答:‘世界模型比VLA多了一个对物理世界的理解,可以帮助做预测性判断和规划。但有一点我们比较坚信:它假设能把真实物理世界仿得极其准确,而且迁移时没有任何偏差——这不太可能。’
‘所有仿真里最难仿的就是接触行为。Berkeley有一个做操作的知名学者,在一个国际特刊上说过一句话:我在桌上随便推一下一支笔,这支笔的运动轨迹,比预测几万光年之外星球的运动还要难。’
姜峣强调:‘仿真器一定受限于现有学科理论的最好水平。它只是一个引擎化的算法,现在最好的仿真技术做不了的事——比如力学模型都解释不了的东西——仿真器凭什么能仿出来?’
‘任务规划侧和执行侧必须分开。小脑管的执行侧,必须自下而上。这是很大的区别。’姜峣说道,‘我们不做大脑。大脑负责任务理解、环境感知、决策,这非常难,也不是我们的强项。我们的强项是:你规划完了要去执行,你让我把水递给你,你不用管我的手怎么使劲、怎么动作,我来做。’
‘商学院最认可的不是完全复制人,而是机器人能像人一样自然地表现。比如,让机器人去抓一张身份证。人怎么抓?肯定是把它从桌面上抠起来。但我们的夹爪没有大拇指,自然不能抠,手指又比较粗。结果它初始阶段试了几次不行,但后来竟然把身份证翘起来,然后夹住。这让我们很震撼——人不会这么干,因为人的硬件结构决定了有更好的方式。但机器人只能这么干,它的物理结构决定了它别无选择。’
‘这让我意识到:没有最好的操作模型,只有最适配的操作模型。本能催生出涌现行为,就像小孩你不知道他会怎么搞,但背后的逻辑是清晰的。我们不应该约束机器人的行为,而是要赋予它本能,让它在各种尝试中自己找出路。’

“先在一个点上超越人类”
凤凰科技问:‘你们的产品规划是什么?’
姜峣回答:‘任务分两个层面的复杂度:跨任务的泛化,和单任务做到极致。大家往往忽略了后者——抓东西看似简单,但要把抓取能力做到比人好,非常难。’
‘我们的切入点就是想哪怕在抓取这一个点上,能做到通过图灵测试——人干和机器人干一模一样好——这就够了。’姜峣说,‘我不是一上来就追求通用的操作能力,那太难了。自然语言、图像识别、L5自动驾驶都还没到那一步,操作的信息模态更多、还有本体差异,怎么可能一下子超越?’
姜峣团队花七年时间研发触觉传感器,获取物体的形状、软硬、摩擦系数、质量、质心、材质、纹理等信息。‘有了这些信息,定向反射、探索反射、抓握反射就能被满足。机器人就可以涌现出自己的行为,具备探索能力,然后跟真实物理世界开始交互——不是为了交互而交互,而是为了让期望收敛。慢慢就可以学习了。这就是我们整个的逻辑。’
虽然团队坚信‘手感’是人与机器最根本的区别之一,但姜峣强调,他们并不是要完全复制人类,而是要让机器人拥有自己的期望体系——‘把手交给它,让它自己去实践、去学习、去完成任务。’
对于未来,姜峣说:‘我们崇尚的一点是:操作是学出来的,而不是教出来的。这是人和机器之间最本质的差异。’
本文内容版权归原作者所有。
阅读原文 ↗