arXiv ID:
2605.28203
arXiv 提交日期: 2026-05-27
通过解耦影响函数优化多维视频奖励模型 / Refining Multidimensional Video Reward Models via Disentangled Influence Functions
1️⃣ 一句话总结
本文提出一种新框架,通过识别训练样本在不同评估维度上的可靠性差异(称为“维度异质性”),并利用解耦影响函数分别处理每个维度的风险,从而更精准地优化视频奖励模型,使其在评价视频质量时更贴合人类主观感受。