arXiv ID:
2509.11452
arXiv 提交日期: 2025-09-14
通过动态奖励权重学习优化多目标对齐 / Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
1️⃣ 一句话总结
这篇论文提出了一种动态调整奖励权重的新方法,解决了传统固定权重在多目标强化学习中无法有效探索最优解的问题,显著提升了大型语言模型在多任务对齐训练中的效率和效果。