arXiv ID:
2603.10588
大语言模型对齐真的需要多样性吗?一项关于将RLVR方法应用于道德推理的实证研究 / Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning
1️⃣ 一句话总结
这项研究发现,在训练大语言模型进行道德推理时,追求高回报的标准强化学习方法与刻意保持多样性的方法效果相当甚至更好,表明对齐任务并不必然需要专门的多样性算法。