arXiv ID:
2604.12582
arXiv 提交日期: 2026-04-14
缓解视频大语言模型幻觉:放松锚定帧的主导地位 / Relaxing Anchor-Frame Dominance for Mitigating Hallucinations in Video Large Language Models
1️⃣ 一句话总结
这篇论文发现视频大语言模型在回答问题时,会过度依赖视频中的某一个关键帧(锚定帧),导致回答出现幻觉,并提出了一种无需额外训练、在解码阶段就能自动平衡各帧注意力权重的方法,有效减少了幻觉并保持了模型性能。