国产预训练具身大模型Wall-OSS-0.5开源上线,零样本表现惊艳

虎嗅
2026年5月28日 04:39

【科技创新】 刚刚,国产预训练具身大模型Wall-OSS-0.5正式开源,引领具身智能领域新风向。


2026年初,国内具身智能赛道掀起了一波开源热潮,越来越多团队开始公开自己的视觉-语言-动作(VLA)模型、数据集与训练框架。与此同时,行业竞争也逐渐聚焦在benchmark成绩、任务成功率以及跨任务泛化能力上,特别是在标准化或已训练任务中的表现。


这种竞赛背后,隐藏着一个行业里心照不宣的困境。大多数VLA模型的评测,都是在针对特定任务微调后才进行的。换句话说,就是先「背书」,而不是真正考验预训练模型的能力。


自变量机器人(X Square Robot)团队选择了一种更直接的方式:直接把未经过任何任务微调的预训练模型,放到真实机器人上,跑17个任务公开测试,这个模型叫做Wall-OSS-0.5。


Wall-OSS-0.5能力概览


预训练即可部署


Wall-OSS-0.5是一个VLA模型,在超过20种机器人形态、每轮超过100万条轨迹的数据上完成预训练,同时混入了约9000万条多模态语料。


自变量团队随后把这个完全没有任务特定微调的预训练checkpoint,直接放到真实机器人上跑了17个任务,涵盖语义理解、刚性物体操作、柔性物体操作、精细操作和长程多步操作五大类别。


结果非常亮眼!400k预训练步数的checkpoint在17个零样本任务中,4个任务的得分超过80分(满分100分):


  • 积木分拣(Block Sorting):100分(已见任务)


  • 水果分拣(Fruit Sorting):96分(已见任务)


  • 套环叠放(Ring Stacking):86分(已见任务)


  • 绳子收紧(Rope Tightening):82分(未见任务,柔性操作)


特别值得一提的是「绳子收紧」这个任务。这是一个从未在预训练集中出现的柔性物体任务,难度极高,不仅需要双臂协调,还需实时感知松紧并动态调整力度。能以82分的成绩完成,成为一次实验中最有说服力的数据点之一:这说明模型不是单纯地「记住」了这道题,而是真正迁移了某种可复用的操作能力。


不同预训练步数的checkpoint在不同已见和未见任务上的零样本表现


从训练进度来看,这些能力并非一开始就有。随着预训练步数从50k增加到400k,见过的任务平均得分从26.1升至50.0,没见过的任务平均得分从24.2升至53.6——两条曲线几乎并排上升。这意味着模型积累的能力确实在向新任务迁移,不仅仅是「背诵」训练集里的样本。


不仅学得快,还越动越聪明?


如果说零样本测试证明了Wall-OSS-0.5拥有「物理直觉」,那么在需要微调的情况下,它则展现出作为基座模型的「先验优势」。


在包含15项真实机器人任务的微调评估中,Wall-OSS-0.5表现惊人,平均任务进度达到了60.5,领先行业标杆π0.5 17.5分。更特别的是,在涵盖抽屉整理、碗中放勺等10项核心操作任务的子集上,它的领先优势达到了26个百分点。


Wall-OSS-0.5在微调任务中的表现


这种优势在主流仿真基准测试中同样稳健:


  • 在RoboCasa厨房模拟环境的精密插入任务中,Wall-OSS-0.5的成功率达到了39.6%,而π0.5仅为4.0%。


  • LIBERO单臂操控基准上,Wall-OSS-0.5仅需20k步微调即达到97.5%的平均成功率,超过π0.5经过30k步训练的成绩,节省约三分之一算力与适配时间。


  • 在包含50个双臂协作任务的RoboTwin平台中,面对光照、背景干扰等随机化场景,Wall-OSS-0.5依然保持80.9%的成功率,表现出强域外泛化能力。


在RoboCasa厨房操控任务中的分项对比


动作训练还能倒逼模型的感知能力进化,让其在具身视觉定位任务上提升了21.8分,在Placement reasoning任务上提升了11.0分。这说明模型并不仅仅是一个「动作终端」,而是主动将视觉感知能力转化为机器人操作所需的核心感知能力。


Wall-OSS-0.5为什么这么强?


从结果来看,Wall-OSS-0.5确实表现出色,甚至有些「非典型」:一个从未见过这些任务的预训练模型,就能在零样本测试中完成柔性双臂操作;微调后更是将π0.5甩开30个点以上。这种级别的领先,不像是单纯的超参数调整,更像是一种底层训练逻辑的革新。


那它到底做对了什么呢?答案其实隐藏在一个被很多人忽视的差异中:大语言模型输出文本是「一截一截」的离散状态,而机器人的动作必须是「丝滑连贯」的连续曲线。如果把动作以连续信号直接灌入主干,那么这股信号对习惯了文字接龙的视觉语言模型来说太微弱,根本无法撼动其底层认知。论文数据也印证了这一点:训练稳定后,流匹配损失对主干的梯度贡献仅剩约5%。


换句话说,想要用连续动作「教会」主干大脑,几乎是徒劳的。自变量团队的解法是:既然连续信号太弱,那就借道离散,把梯度强行送进去。


他们设计出了一套「梯度桥接」协同训练框架,包含以下四项关键要素:


  • 梯度桥接: 让动作反向塑造主干大脑。


  • 视觉对齐的Tokenizer: 给动作Token赋予物理语义,而非冰冷数字。


  • 动作空间监督: 把好钢用在刀刃上,预测最终动作而非每秒速度。


  • 多模态训练策略: 真正实现「看、说、动」的统一表征。


梯度桥接效应验证


这些设计共同支撑起这套「用离散路径传梯度、用连续路径做执行」的训练框架。消融实验证明,一旦砍掉这套「梯度桥」,真实机器人任务的成功率会出现断崖式下降。


这种「鱼与熊掌兼得」的特性,证明了Wall-OSS-0.5的协同训练方案不仅有效,还在物理世界感知与操作之间建立了一种良性互补关系。


更有趣的是,论文补充指出,预训练模型仍有一些短板。例如,在毛巾折叠(10分)、餐桌摆设(9分)、充电器插接(9分)等对精度要求极高的任务中,模型几乎无法完成。这说明其能力边界分明,一旦涉及「语义理解」以外的精细动作要求,仍然需要依赖微调。


综上所述,Wall-OSS-0.5的出现,不仅刷新了具身智能研究的方向,也为中国AI技术在国际舞台上增添了一道新风景。

本文内容版权归原作者所有。

阅读原文 ↗

评论 (0)

暂无评论,快来抢沙发吧!
国产预训练具身大模型Wall-OSS-0.5开源上线,零样本表现惊艳 - 加闻网 (CanNews.ca)