arXiv ID:
2605.14278
arXiv 提交日期: 2026-05-14
KVPO:通过KV语义探索实现自回归视频对齐的原生ODE策略优化方法 / KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
1️⃣ 一句话总结
本文提出KVPO方法,通过利用视频生成模型中的历史缓存(KV cache)进行语义级探索,并设计基于轨迹速度能量的奖励函数,使得强化学习过程与视频生成的原生ODE动力学完全一致,显著提升了模型在视觉质量、运动连贯性和文本一致性上的表现。