arXiv ID:
2605.19282
arXiv 提交日期: 2026-05-19
超越预训练:重新审视Muon优化器在视觉-语言-动作模型和带验证奖励强化学习中的频谱失效问题及高通滤波解决方案 / Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR
1️⃣ 一句话总结
本文发现Muon优化器在预训练中有效的均匀频谱白化策略,在处理视觉-语言-动作模型中的低秩梯度以及带验证奖励的强化学习中的低信噪比梯度时会导致性能崩溃,为此提出了Pion优化器,通过一种高通滤波机制保留主要梯度方向同时抑制噪声尾巴,并在机器人操作和数学推理任务中显著优于Muon和AdamW。