AMD全新研究揭示：FP4训练不稳定性源于结构误差而非随机性不足

美国宾夕法尼亚州立大学联合AMD发表突破性研究：FP4训练不稳定性源于结构性误差，非随机性不足。

众所周知，大模型训练成本极高，成为AI行业发展的主要瓶颈。

然而，降低训练精度被认为是一种有效降低成本的手段。此前，DeepSeek-V3通过FP8训练将成本降至560万美元，引发行业广泛关注。

在FP8取得进展后，业界持续探索更低精度的可能性，其中FP4因其更高的计算吞吐受到重视。NVIDIA Blackwell和AMD MI350系列GPU已支持FP4运算，硬件条件具备，但软件层的训练稳定性始终是个难题。

一直以来，人们普遍认为FP4训练过程中出现的不稳定性是由于随机性不足造成的。因此，业内尝试了多种方法来增加随机性，比如随机舍入和随机Hadamard旋转。但在AMD与宾夕法尼亚州立大学的最新研究中，这一观点被彻底颠覆。

论文标题

论文标题：Pretraining large language models with MXFP4 on Native FP4 Hardware
论文链接：https://arxiv.org/abs/2605.09825

本次研究在AMD Instinct MI355X GPU上，使用MXFP4格式完成了Llama 3.1-8B模型的全流程预训练，端到端训练速度比FP8基线快9-10%，token开销仅多8-9%。这是首个在原生FP4硬件（非软件模拟）上实现大模型预训练的完整实验。

MXFP4：一种基于微缩放的低精度数据格式

MXFP4是一种创新的低精度量化方法，其核心在于「微缩放」（Micro-scaling）机制。这种方法将张量划分为小块（如每32个元素一组），为每个小块分配一个共享指数（E8M0格式），并在块内使用4比特浮点数进行表示。该方式能够更精确地捕捉数据动态范围，避免全局异常值「绑架」整个张量的精度。

尽管MXFP4在微缩放上表现出显著优势，但研究团队发现，在训练过程中，FP4依然存在不稳定性问题。特别是权重梯度（Wgrad）的量化成为关键瓶颈。

实验结论：问题根源在于结构性误差，非随机性不足。

为了验证这一观点，研究团队设计了一系列控制实验，逐步将Transformer模型中涉及的三个关键矩阵乘法操作（Fprop、Dgrad、Wgrad）从FP8切换为MXFP4格式，并观察训练稳定性。

结果显示，前两步替换操作仅带来小额的token开销，但一旦Wgrad也被量化，训练稳定性显著恶化，token开销上升至26-27%。研究指出，Wgrad是FP4训练中最关键的不稳定环节。

过去业界多采用随机性策略来缓解量化误差，但实验表明，随机舍入和随机Hadamard旋转反而对训练稳定性造成进一步损害。相反，确定性Hadamard旋转却能有效减少误差，使训练稳定性提升，token开销回到8-9%。

实验对比

该结论对理解低精度训练的不稳定性具有重要意义。它揭示了在训练过程中，结构性误差可能比随机噪声更具破坏力，未来的优化方向应更加关注这些误差源。

端到端训练效率提升

使用确定性Hadamard旋转结合MXFP4的训练方案，不仅提升了稳定性，同时还带来了效率的显著改善。

效率对比

训练步吞吐量提升了20%，综合加速效果达到9-10%。尽管牺牲了一定的token精度，但模型在C4数据集上的验证困惑度仍可接近FP8的水平，证明了FP4训练的可行性。

验证困惑度图表

左图：在C4数据集进行MLPerf预训练时，Llama 3.1–8B的验证困惑度随训练token数变化的曲线。结果显示，MXFP4+确定性Hadamard与FP8的表现非常接近，而未进行稳定化处理的全流程MXFP4收敛速度更慢，训练稳定性也更差。右图：训练后期的局部放大视图。MLPerf的目标困惑度为3.3。与未稳定化的MXFP4运行相比，确定性Hadamard（H16）能够与FP8基线保持更紧密的一致性。

值得关注的是，论文作者特别指出，这套FP4训练方案已验证适用于特定的模型、数据集及训练方法，但其效果可能因应用场景而异。因此，针对不同模型和数据集，可能需要定制化的稳定策略。

行业意义：推动FP4从推理专精走向训练可用

这项研究具有三个重要意义：

它是首个对FP4训练不稳定性提供清晰因果诊断的论文，明确指出问题根源是结构性误差，而非随机性不足。
它证实了FP4可用于大模型训练，将硬件算力从推理扩展至训练，有望在未来大幅降低训练成本。
它基于OCP（Open Compute Project）开放标准，具有良好的跨平台兼容性，为行业提供了统一的技术路径。

从FP16到FP8，DeepSeek-V3证明了精度减半的可行性。而这篇论文则是从FP8迈向FP4的关键一步，表明在不牺牲模型性能的前提下，AI训练的经济性正在发生根本性转变。

评论 (0)