HRM-Text创新模型架构,1B参数与低预算训练打破传统认知(全球)
【科技创新】 Sapient Intelligence团队于2026年5月18日发布了新架构语言模型HRM-Text,并同步公开论文、模型权重及预训练代码。
HRM-Text在MATH测试中取得56.2分,在GSM8K中获得84.5分,在ARC-Challenge上达到81.9分,其性能表现远超一些同参数量级的模型。为了实现这一目标,团队采用了约40B个unique tokens进行训练,接近于Llama 3.2 3B(9T tokens)训练量的1/225,以及Qwen3.5 2B(36T tokens)训练量的1/900。训练成本则控制在约1500美元,仅需16块H100 GPU不到两天的时间。

【核心创新】 这一新型架构并非依赖过往的‘参数越多越好’的模式,而是试图在有限数据和算力下,通过架构创新和训练目标设计来提升计算产出效率。论文标题明确指出其路线是‘Efficient Pretraining Beyond Scaling’,意即突破单纯依赖参数扩展的预训练方式。

HRM-Text通过两个模块H和L的组织方式进行计算,它们以不同时间尺度同步更新。这种设计不同于传统的‘大小脑’协同方案,因为它并非两个独立模型,而是在同一个网络中完成分层递归计算。模块间以统一优化过程交互,而非文本接口。
【训练策略】 除了架构设计的更新,HRM-Text在训练目标上也进行了调整。它不采用传统的‘下一个token预测’,而直接使用‘指令——回答’数据对进行训练,只对回答部分计算损失。这一改变使训练信号更集中于任务完成,而非文本续写。

这项设计配合PrefixLM attention mask,使指令部分的token能够双向交互,相较传统causal mask带来更高的注意力熵,促进模型更好地整合上下文。
【实验对比】 论文通过消融实验验证了架构三方向改进的有效性。以ARC-Challenge为例,标准1B Transformer仅达51.91分;当仅对回答计算损失时,成绩提升到62.88分;加入PrefixLM后为74.32分;最终引入HRM架构则提高至81.91分。MATH测试同样呈现类似趋势:从35.44提升至56.16。

值得指出的是,HRM-Text的计算深度并非静态,而是基于递归更新机制。在每次输出前,模型会完成8次内部迭代(6次低层,2次高层),这在语言模型中较为少见。
【挑战与前景】 尽管HRM-Text在多个benchmarks上表现出色,但它并非一个完整优化的通用聊天模型,而是一个被定义为‘Proof of Concept’的模型框架,旨在展示基础模型在预训练阶段仍存在架构优化的空间。
模型的设计也面临挑战,如激活值方差累积、梯度消失或爆炸等问题。为此,团队采用MagicNorm优化机制与warmup deep credit assignment策略,前者在每轮递归模块退出时加入归一化,后者则逐步扩大梯度回传范围,以提升深层训练的稳定性。
【扩展方向】 从长远来看,HRM-Text将在未来探索‘推理——知识解耦’方向,即让模型更专注于内部计算与任务执行,而将事实知识的覆盖交给外部知识库和可学习的记忆模块。
目前该团队已在该方向上获得初步成果,但尚未披露具体实验细节。事实上,该模型并非首次尝试递归计算,早在2025年6月,其前身HRM架构便已提出,如今HRM-Text则是其在架构与训练策略上的进一步完善。

整体来看,HRM-Text的成功为未来‘高端但低预算’的语言模型开发提供了新思路。它不仅打破了传统大模型训练需高参数和高算力的路径依赖,也为资源受限的研究者和开发者展示了一个可复现、具前瞻性的模型架构案例。
本文内容版权归原作者所有。
阅读原文 ↗