HRM-Text创新模型架构，1B参数与低预算训练打破传统认知（全球）

【科技创新】 Sapient Intelligence团队于2026年5月18日发布了新架构语言模型HRM-Text，并同步公开论文、模型权重及预训练代码。

HRM-Text在MATH测试中取得56.2分，在GSM8K中获得84.5分，在ARC-Challenge上达到81.9分，其性能表现远超一些同参数量级的模型。为了实现这一目标，团队采用了约40B个unique tokens进行训练，接近于Llama 3.2 3B（9T tokens）训练量的1/225，以及Qwen3.5 2B（36T tokens）训练量的1/900。训练成本则控制在约1500美元，仅需16块H100 GPU不到两天的时间。

HRM-Text与其他模型在训练FLOPs、训练tokens和benchmark上的对比

【核心创新】 这一新型架构并非依赖过往的‘参数越多越好’的模式，而是试图在有限数据和算力下，通过架构创新和训练目标设计来提升计算产出效率。论文标题明确指出其路线是‘Efficient Pretraining Beyond Scaling’，意即突破单纯依赖参数扩展的预训练方式。

论文标题：HRM-Text: Efficient Pretraining Beyond Scaling

HRM-Text通过两个模块H和L的组织方式进行计算，它们以不同时间尺度同步更新。这种设计不同于传统的‘大小脑’协同方案，因为它并非两个独立模型，而是在同一个网络中完成分层递归计算。模块间以统一优化过程交互，而非文本接口。

【训练策略】 除了架构设计的更新，HRM-Text在训练目标上也进行了调整。它不采用传统的‘下一个token预测’，而直接使用‘指令——回答’数据对进行训练，只对回答部分计算损失。这一改变使训练信号更集中于任务完成，而非文本续写。

仅对回答计算损失、PrefixLM注意力掩码和注意力分布的差异

这项设计配合PrefixLM attention mask，使指令部分的token能够双向交互，相较传统causal mask带来更高的注意力熵，促进模型更好地整合上下文。

【实验对比】 论文通过消融实验验证了架构三方向改进的有效性。以ARC-Challenge为例，标准1B Transformer仅达51.91分；当仅对回答计算损失时，成绩提升到62.88分；加入PrefixLM后为74.32分；最终引入HRM架构则提高至81.91分。MATH测试同样呈现类似趋势：从35.44提升至56.16。

在相同训练FLOPs条件下，模型表现变化

值得指出的是，HRM-Text的计算深度并非静态，而是基于递归更新机制。在每次输出前，模型会完成8次内部迭代（6次低层，2次高层），这在语言模型中较为少见。

【挑战与前景】 尽管HRM-Text在多个benchmarks上表现出色，但它并非一个完整优化的通用聊天模型，而是一个被定义为‘Proof of Concept’的模型框架，旨在展示基础模型在预训练阶段仍存在架构优化的空间。

模型的设计也面临挑战，如激活值方差累积、梯度消失或爆炸等问题。为此，团队采用MagicNorm优化机制与warmup deep credit assignment策略，前者在每轮递归模块退出时加入归一化，后者则逐步扩大梯度回传范围，以提升深层训练的稳定性。

【扩展方向】 从长远来看，HRM-Text将在未来探索‘推理——知识解耦’方向，即让模型更专注于内部计算与任务执行，而将事实知识的覆盖交给外部知识库和可学习的记忆模块。

目前该团队已在该方向上获得初步成果，但尚未披露具体实验细节。事实上，该模型并非首次尝试递归计算，早在2025年6月，其前身HRM架构便已提出，如今HRM-Text则是其在架构与训练策略上的进一步完善。

HRM架构图示

整体来看，HRM-Text的成功为未来‘高端但低预算’的语言模型开发提供了新思路。它不仅打破了传统大模型训练需高参数和高算力的路径依赖，也为资源受限的研究者和开发者展示了一个可复现、具前瞻性的模型架构案例。

评论 (0)