arXiv ID:
2602.22146
arXiv 提交日期: 2026-02-25
通过乐观原始对偶方法实现多目标安全大语言模型对齐的可证明末次迭代收敛 / Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual
1️⃣ 一句话总结
这篇论文提出了一种名为“乐观原始对偶”的新算法,它能够稳定地训练大语言模型,使其在遵循人类偏好的同时满足安全约束,并首次从理论上证明了该方法的最终训练结果是可靠收敛的。