国产预训练具身大模型Wall-OSS-0.5开源上线，零样本表现惊艳

【科技创新】 刚刚，国产预训练具身大模型Wall-OSS-0.5正式开源，引领具身智能领域新风向。

2026年初，国内具身智能赛道掀起了一波开源热潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐聚焦在benchmark成绩、任务成功率以及跨任务泛化能力上，特别是在标准化或已训练任务中的表现。

这种竞赛背后，隐藏着一个行业里心照不宣的困境。大多数VLA模型的评测，都是在针对特定任务微调后才进行的。换句话说，就是先「背书」，而不是真正考验预训练模型的能力。

自变量机器人（X Square Robot）团队选择了一种更直接的方式：直接把未经过任何任务微调的预训练模型，放到真实机器人上，跑17个任务公开测试，这个模型叫做Wall-OSS-0.5。

Wall-OSS-0.5能力概览

预训练即可部署

Wall-OSS-0.5是一个VLA模型，在超过20种机器人形态、每轮超过100万条轨迹的数据上完成预训练，同时混入了约9000万条多模态语料。

自变量团队随后把这个完全没有任务特定微调的预训练checkpoint，直接放到真实机器人上跑了17个任务，涵盖语义理解、刚性物体操作、柔性物体操作、精细操作和长程多步操作五大类别。

结果非常亮眼！400k预训练步数的checkpoint在17个零样本任务中，4个任务的得分超过80分（满分100分）：

积木分拣（Block Sorting）：100分（已见任务）
水果分拣（Fruit Sorting）：96分（已见任务）
套环叠放（Ring Stacking）：86分（已见任务）
绳子收紧（Rope Tightening）：82分（未见任务，柔性操作）

特别值得一提的是「绳子收紧」这个任务。这是一个从未在预训练集中出现的柔性物体任务，难度极高，不仅需要双臂协调，还需实时感知松紧并动态调整力度。能以82分的成绩完成，成为一次实验中最有说服力的数据点之一：这说明模型不是单纯地「记住」了这道题，而是真正迁移了某种可复用的操作能力。

不同预训练步数的checkpoint在不同已见和未见任务上的零样本表现

从训练进度来看，这些能力并非一开始就有。随着预训练步数从50k增加到400k，见过的任务平均得分从26.1升至50.0，没见过的任务平均得分从24.2升至53.6——两条曲线几乎并排上升。这意味着模型积累的能力确实在向新任务迁移，不仅仅是「背诵」训练集里的样本。

不仅学得快，还越动越聪明？

如果说零样本测试证明了Wall-OSS-0.5拥有「物理直觉」，那么在需要微调的情况下，它则展现出作为基座模型的「先验优势」。

在包含15项真实机器人任务的微调评估中，Wall-OSS-0.5表现惊人，平均任务进度达到了60.5，领先行业标杆π0.5 17.5分。更特别的是，在涵盖抽屉整理、碗中放勺等10项核心操作任务的子集上，它的领先优势达到了26个百分点。

Wall-OSS-0.5在微调任务中的表现

这种优势在主流仿真基准测试中同样稳健：

在RoboCasa厨房模拟环境的精密插入任务中，Wall-OSS-0.5的成功率达到了39.6%，而π0.5仅为4.0%。
LIBERO单臂操控基准上，Wall-OSS-0.5仅需20k步微调即达到97.5%的平均成功率，超过π0.5经过30k步训练的成绩，节省约三分之一算力与适配时间。
在包含50个双臂协作任务的RoboTwin平台中，面对光照、背景干扰等随机化场景，Wall-OSS-0.5依然保持80.9%的成功率，表现出强域外泛化能力。

在RoboCasa厨房操控任务中的分项对比

动作训练还能倒逼模型的感知能力进化，让其在具身视觉定位任务上提升了21.8分，在Placement reasoning任务上提升了11.0分。这说明模型并不仅仅是一个「动作终端」，而是主动将视觉感知能力转化为机器人操作所需的核心感知能力。

Wall-OSS-0.5为什么这么强？

从结果来看，Wall-OSS-0.5确实表现出色，甚至有些「非典型」：一个从未见过这些任务的预训练模型，就能在零样本测试中完成柔性双臂操作；微调后更是将π0.5甩开30个点以上。这种级别的领先，不像是单纯的超参数调整，更像是一种底层训练逻辑的革新。

那它到底做对了什么呢？答案其实隐藏在一个被很多人忽视的差异中：大语言模型输出文本是「一截一截」的离散状态，而机器人的动作必须是「丝滑连贯」的连续曲线。如果把动作以连续信号直接灌入主干，那么这股信号对习惯了文字接龙的视觉语言模型来说太微弱，根本无法撼动其底层认知。论文数据也印证了这一点：训练稳定后，流匹配损失对主干的梯度贡献仅剩约5%。

换句话说，想要用连续动作「教会」主干大脑，几乎是徒劳的。自变量团队的解法是：既然连续信号太弱，那就借道离散，把梯度强行送进去。

他们设计出了一套「梯度桥接」协同训练框架，包含以下四项关键要素：

梯度桥接： 让动作反向塑造主干大脑。
视觉对齐的Tokenizer： 给动作Token赋予物理语义，而非冰冷数字。
动作空间监督： 把好钢用在刀刃上，预测最终动作而非每秒速度。
多模态训练策略： 真正实现「看、说、动」的统一表征。

梯度桥接效应验证

这些设计共同支撑起这套「用离散路径传梯度、用连续路径做执行」的训练框架。消融实验证明，一旦砍掉这套「梯度桥」，真实机器人任务的成功率会出现断崖式下降。

这种「鱼与熊掌兼得」的特性，证明了Wall-OSS-0.5的协同训练方案不仅有效，还在物理世界感知与操作之间建立了一种良性互补关系。

更有趣的是，论文补充指出，预训练模型仍有一些短板。例如，在毛巾折叠（10分）、餐桌摆设（9分）、充电器插接（9分）等对精度要求极高的任务中，模型几乎无法完成。这说明其能力边界分明，一旦涉及「语义理解」以外的精细动作要求，仍然需要依赖微调。

综上所述，Wall-OSS-0.5的出现，不仅刷新了具身智能研究的方向，也为中国AI技术在国际舞台上增添了一道新风景。

评论 (0)