📄 论文总结
基于方差感知采样的多模态推理模型训练优化
Variance-Aware Sampling for Multimodal Reasoning Model Training
1️⃣ 一句话总结
本文提出了一种方差感知采样方法来解决多模态推理模型训练中的稳定性问题,并发布了大规模高质量训练资源。
2️⃣ 论文创新点
1. 方差感知采样(VAS)
- 创新点是什么:一种动态数据选择策略,通过方差促进分数(VPS)评估每个提示的潜力,优先选择能产生更大奖励方差的训练样本
- 与已有方法的区别/改进:缓解了GRPO训练中的梯度消失问题,提高了优化稳定性和收敛速度
- 为什么有意义:理论上建立了奖励方差对策略梯度幅度的下界保证,为稳定训练提供理论依据
2. 方差促进分数(VPS)
- 创新点是什么:一个综合评分系统,由结果方差分数(OVS)和轨迹多样性分数(TDS)加权组成,用于量化提示在训练中可能产生的奖励方差
- 与已有方法的区别/改进:通过结合结果方差和轨迹多样性,提供了更全面的方差评估
- 为什么有意义:为动态数据采样提供理论依据,平衡结果方差和轨迹多样性
3. 大规模开放资源发布
- 创新点是什么:包含约160万条长链思维冷启动数据和约1.5万条强化学习问答对的大规模精选资源
- 与已有方法的区别/改进:解决了多模态推理研究缺乏开放、高质量训练数据的问题
- 为什么有意义:确保数据质量、难度和多样性,促进研究可复现性和进一步发展
3️⃣ 主要结果与价值
实验结果亮点
- 在多种多模态数学和逻辑推理基准上提高了收敛性、稳定性和下游性能
- 7B模型在五个推理基准测试中取得58.4的平均分,达到最先进水平
- VAS相比随机采样基线产生更高的梯度范数和更稳定的裁剪比例,表明更有效的学习
实际应用价值
- 开源了多种规模的多模态推理模型系列,为社区建立标准化基线
- 提供了超参数配置指导:混合比λ=0.5,更新频率14-35步,VPS权重比(0.8,0.2)
- 方法在广泛超参数设置下保持稳定,适合实际应用部署
4️⃣ 术语表
- VAS:方差感知采样,一种基于奖励方差选择训练样本的采样方法,优先选择高方差提示以提供更强的梯度信号
- VPS:方差促进分数,由OVS和TDS加权组合而成,用于评估提示在训练中可能产生的奖励方差大小
- OVS:结果方差分数,基于伯努利方差计算,在通过率为0.5时最大化,反映正确和错误输出的平衡程度
- TDS:轨迹多样性分数,鼓励推理轨迹多样性,提高方差下界,维持信息丰富的梯度信号
- GRPO:组奖励策略优化,通过组内归一化奖励改进REINFORCE的方法,使用组均值作为基线,样本标准差进行白化
- CoT:思维链,用于生成多步推理的标注方法