arXiv ID:
2603.03000
arXiv 提交日期: 2026-03-03
为什么RLAIF(从AI反馈中强化学习)会有效? / Why Does RLAIF Work At All?
1️⃣ 一句话总结
这篇论文提出一个理论来解释为什么AI模型能通过自我偏好判断来改进自身:模型在预训练时已将人类价值观编码到其内部表示中,而特定的引导指令(宪法)能将这些潜在的价值观‘激活’出来用于判断,从而实现对模型行为的有效对齐和改进。