arXiv ID:
2512.23165
arXiv 提交日期: 2025-12-29
评估用于RLVR的参数高效方法 / Evaluating Parameter Efficient Methods for RLVR
1️⃣ 一句话总结
本研究首次系统评估了多种参数高效微调方法在强化学习与可验证奖励框架下的表现,发现DoRA等结构变体优于常用的LoRA,并揭示了某些初始化策略失败的原因,为选择高效微调方法提供了明确指导。