arXiv ID:
2602.09538
arXiv 提交日期: 2026-02-10
UniARM:面向多目标测试时对齐的统一自回归奖励模型 / UniARM: Towards a Unified Autoregressive Reward Model for Multi-Objective Test-Time Alignment
1️⃣ 一句话总结
这篇论文提出了一种名为UniARM的新框架,它通过一个统一的模型来同时优化大语言模型的多个目标(如安全性和有用性),解决了以往方法中目标间相互干扰或控制不精准的问题,使得模型输出能更准确地平衡和满足用户的多重偏好。