arXiv ID:
2602.08819
用于测试时可引导奖励模型的贝叶斯偏好学习 / Bayesian Preference Learning for Test-Time Steerable Reward Models
1️⃣ 一句话总结
这篇论文提出了一种名为ICRM的新方法,它能让AI在训练后根据用户给出的新偏好示例动态调整其奖励判断,从而更灵活地适应多样化的任务需求,比如同时兼顾安全性和有用性。