arXiv ID:
2602.11146
超越基于视觉语言模型的奖励:扩散模型原生潜在奖励建模 / Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling
1️⃣ 一句话总结
这篇论文提出了一种名为DiNa-LRM的新方法,它直接在扩散模型的内部潜在空间中评估图像质量,从而以更低的计算成本实现了与主流视觉语言模型相当的图像偏好对齐效果。