美国

AMD全新研究揭示:FP4训练不稳定性源于结构误差而非随机性不足

虎嗅
2026年5月27日 04:03

美国宾夕法尼亚州立大学联合AMD发表突破性研究:FP4训练不稳定性源于结构性误差,非随机性不足。


众所周知,大模型训练成本极高,成为AI行业发展的主要瓶颈。


然而,降低训练精度被认为是一种有效降低成本的手段。此前,DeepSeek-V3通过FP8训练将成本降至560万美元,引发行业广泛关注。


在FP8取得进展后,业界持续探索更低精度的可能性,其中FP4因其更高的计算吞吐受到重视。NVIDIA Blackwell和AMD MI350系列GPU已支持FP4运算,硬件条件具备,但软件层的训练稳定性始终是个难题。


一直以来,人们普遍认为FP4训练过程中出现的不稳定性是由于随机性不足造成的。因此,业内尝试了多种方法来增加随机性,比如随机舍入和随机Hadamard旋转。但在AMD与宾夕法尼亚州立大学的最新研究中,这一观点被彻底颠覆。


论文标题

  • 论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware

  • 论文链接:https://arxiv.org/abs/2605.09825


本次研究在AMD Instinct MI355X GPU上,使用MXFP4格式完成了Llama 3.1-8B模型的全流程预训练,端到端训练速度比FP8基线快9-10%,token开销仅多8-9%。这是首个在原生FP4硬件(非软件模拟)上实现大模型预训练的完整实验。


MXFP4:一种基于微缩放的低精度数据格式


MXFP4是一种创新的低精度量化方法,其核心在于「微缩放」(Micro-scaling)机制。这种方法将张量划分为小块(如每32个元素一组),为每个小块分配一个共享指数(E8M0格式),并在块内使用4比特浮点数进行表示。该方式能够更精确地捕捉数据动态范围,避免全局异常值「绑架」整个张量的精度。


尽管MXFP4在微缩放上表现出显著优势,但研究团队发现,在训练过程中,FP4依然存在不稳定性问题。特别是权重梯度(Wgrad)的量化成为关键瓶颈。


实验结论:问题根源在于结构性误差,非随机性不足。


为了验证这一观点,研究团队设计了一系列控制实验,逐步将Transformer模型中涉及的三个关键矩阵乘法操作(Fprop、Dgrad、Wgrad)从FP8切换为MXFP4格式,并观察训练稳定性。


结果显示,前两步替换操作仅带来小额的token开销,但一旦Wgrad也被量化,训练稳定性显著恶化,token开销上升至26-27%。研究指出,Wgrad是FP4训练中最关键的不稳定环节。


过去业界多采用随机性策略来缓解量化误差,但实验表明,随机舍入和随机Hadamard旋转反而对训练稳定性造成进一步损害。相反,确定性Hadamard旋转却能有效减少误差,使训练稳定性提升,token开销回到8-9%。


实验对比


该结论对理解低精度训练的不稳定性具有重要意义。它揭示了在训练过程中,结构性误差可能比随机噪声更具破坏力,未来的优化方向应更加关注这些误差源。


端到端训练效率提升


使用确定性Hadamard旋转结合MXFP4的训练方案,不仅提升了稳定性,同时还带来了效率的显著改善。


效率对比


训练步吞吐量提升了20%,综合加速效果达到9-10%。尽管牺牲了一定的token精度,但模型在C4数据集上的验证困惑度仍可接近FP8的水平,证明了FP4训练的可行性。


验证困惑度图表

左图:在C4数据集进行MLPerf预训练时,Llama 3.1–8B的验证困惑度随训练token数变化的曲线。结果显示,MXFP4+确定性Hadamard与FP8的表现非常接近,而未进行稳定化处理的全流程MXFP4收敛速度更慢,训练稳定性也更差。右图:训练后期的局部放大视图。MLPerf的目标困惑度为3.3。与未稳定化的MXFP4运行相比,确定性Hadamard(H16)能够与FP8基线保持更紧密的一致性。


值得关注的是,论文作者特别指出,这套FP4训练方案已验证适用于特定的模型、数据集及训练方法,但其效果可能因应用场景而异。因此,针对不同模型和数据集,可能需要定制化的稳定策略。


行业意义:推动FP4从推理专精走向训练可用


这项研究具有三个重要意义:

  • 它是首个对FP4训练不稳定性提供清晰因果诊断的论文,明确指出问题根源是结构性误差,而非随机性不足。

  • 它证实了FP4可用于大模型训练,将硬件算力从推理扩展至训练,有望在未来大幅降低训练成本。

  • 它基于OCP(Open Compute Project)开放标准,具有良好的跨平台兼容性,为行业提供了统一的技术路径。


从FP16到FP8,DeepSeek-V3证明了精度减半的可行性。而这篇论文则是从FP8迈向FP4的关键一步,表明在不牺牲模型性能的前提下,AI训练的经济性正在发生根本性转变。

本文内容版权归原作者所有。

阅读原文 ↗

评论 (0)

暂无评论,快来抢沙发吧!