清华博士团队：我们不是数据驱动，是本能驱动 —— 橡木果机器人探索操作新范式

【科技创新】 2026年初，当所有人都在谈论视觉-语言-动作（VLA）模型、世界模型和端到端学习时，有9个人选择了另辟蹊径。他们从2016年到2023年，8位清华博士生全部加入由姜峣老师发起的‘橡木果机器人’项目，挑战主流的‘数据驱动’AI路径。

图｜来源于小红书博主@橡木果AcronRobot

姜峣在哈佛做博士后时研究人脑如何控制手。他发现，虽然语言需要后天学习，但抓取这种基本操作，却似乎人人都有本能。无论文化、教育背景如何，抓取动作几乎都是一致的，这让他意识到操作背后可能隐藏着某种自然逻辑。

姜峣说：‘操作有本能，而语言没有。’这个信念让他与数据驱动的AI浪潮背道而驰。在过去八年里，他们没有追热点、没有融资，甚至不愿露面，直到2025年底，当VLA模型在工业场景频频失灵，世界模型的仿真能力撞上物理规律的天花板，行业才开始重新审视‘本能驱动’的价值。

反共识的起点：我们不是数据驱动，是本能驱动

‘你们跟市面上其他具身智能团队最大的不同是什么？’凤凰网科技问道。

姜峣回答：‘最大的区别在于，大家更多是数据驱动、自上而下，我们是本能驱动、自下而上。这个差异是根本性的。’

在哈佛的神经科学实验室，姜峣曾观察到一个小实验：‘你不对一个小孩做语言训练，他一辈子也学不会说话。让他学中文就说中文，学英文就说英文——语言完全是后天数据驱动的。但操作不是。比如把桌上一瓶水抓起来，从小到大没有人教过我们怎么抓，但每个人抓取的行为模式非常相似。’

这说明背后一定有某种东西在驱动这个行为模式——这就是本能。姜峣的这一发现，引导他回到清华组建实验室，从2018年起坚定沿着这个方向走。

“硬件没有最好的预训练模型”

‘你什么时候发现行业也开始往这个方向思考了？’

姜峣说：‘一开始大家是不太认可的。我们这么多年一直没有在行业里宣扬这条技术路线，一方面是团队太关注技术，另一方面是因为——操作最底层的逻辑是通过接触改变环境，这跟语言、图像处理完全不一样。接触行为非常复杂，需要触觉、需要对本能的深刻理解。’

2021年，团队提出了新的突破：他们构建了一个基于滑移感知的底层本能反射模型。‘不需要数据，也不需要建模，根据滑移的本能反射，在物体抓取过程中就可以自主选择最合适的力，既不过大把东西抓坏，也不过小让它掉下来。’姜峣说。

这也让团队更加坚定了信念：本能确实存在。

‘从那以后就水到渠成了。’姜峣笑着说道，‘我们开始探讨：人有哪些操作本能？怎么赋予机器人？在这个过程中，也认识到触觉非常重要。有人专门研究触觉，有人研究本能跟肌肉（也就是电机）的绑定，大家背靠背配合。’

“万有引力里没有任何运动参数，却支配了所有运动”

‘那今年大家转向世界模型，你觉得能解决问题吗？’

姜峣回答：‘世界模型比VLA多了一个对物理世界的理解，可以帮助做预测性判断和规划。但有一点我们比较坚信：它假设能把真实物理世界仿得极其准确，而且迁移时没有任何偏差——这不太可能。’

‘所有仿真里最难仿的就是接触行为。Berkeley有一个做操作的知名学者，在一个国际特刊上说过一句话：我在桌上随便推一下一支笔，这支笔的运动轨迹，比预测几万光年之外星球的运动还要难。’

姜峣强调：‘仿真器一定受限于现有学科理论的最好水平。它只是一个引擎化的算法，现在最好的仿真技术做不了的事——比如力学模型都解释不了的东西——仿真器凭什么能仿出来？’

‘任务规划侧和执行侧必须分开。小脑管的执行侧，必须自下而上。这是很大的区别。’姜峣说道，‘我们不做大脑。大脑负责任务理解、环境感知、决策，这非常难，也不是我们的强项。我们的强项是：你规划完了要去执行，你让我把水递给你，你不用管我的手怎么使劲、怎么动作，我来做。’

‘商学院最认可的不是完全复制人，而是机器人能像人一样自然地表现。比如，让机器人去抓一张身份证。人怎么抓？肯定是把它从桌面上抠起来。但我们的夹爪没有大拇指，自然不能抠，手指又比较粗。结果它初始阶段试了几次不行，但后来竟然把身份证翘起来，然后夹住。这让我们很震撼——人不会这么干，因为人的硬件结构决定了有更好的方式。但机器人只能这么干，它的物理结构决定了它别无选择。’

‘这让我意识到：没有最好的操作模型，只有最适配的操作模型。本能催生出涌现行为，就像小孩你不知道他会怎么搞，但背后的逻辑是清晰的。我们不应该约束机器人的行为，而是要赋予它本能，让它在各种尝试中自己找出路。’

“先在一个点上超越人类”

凤凰科技问：‘你们的产品规划是什么？’

姜峣回答：‘任务分两个层面的复杂度：跨任务的泛化，和单任务做到极致。大家往往忽略了后者——抓东西看似简单，但要把抓取能力做到比人好，非常难。’

‘我们的切入点就是想哪怕在抓取这一个点上，能做到通过图灵测试——人干和机器人干一模一样好——这就够了。’姜峣说，‘我不是一上来就追求通用的操作能力，那太难了。自然语言、图像识别、L5自动驾驶都还没到那一步，操作的信息模态更多、还有本体差异，怎么可能一下子超越？’

姜峣团队花七年时间研发触觉传感器，获取物体的形状、软硬、摩擦系数、质量、质心、材质、纹理等信息。‘有了这些信息，定向反射、探索反射、抓握反射就能被满足。机器人就可以涌现出自己的行为，具备探索能力，然后跟真实物理世界开始交互——不是为了交互而交互，而是为了让期望收敛。慢慢就可以学习了。这就是我们整个的逻辑。’

虽然团队坚信‘手感’是人与机器最根本的区别之一，但姜峣强调，他们并不是要完全复制人类，而是要让机器人拥有自己的期望体系——‘把手交给它，让它自己去实践、去学习、去完成任务。’

对于未来，姜峣说：‘我们崇尚的一点是：操作是学出来的，而不是教出来的。这是人和机器之间最本质的差异。’

反共识的起点：我们不是数据驱动，是本能驱动

“硬件没有最好的预训练模型”

“万有引力里没有任何运动参数，却支配了所有运动”

“先在一个点上超越人类”

评论 (0)