arXiv ID:
2512.24271
驯服幻觉:通过反事实视频生成提升多模态大语言模型的视频理解能力 / Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
1️⃣ 一句话总结
这篇论文提出了一种名为DualityForge的新方法,通过自动生成违背常识的反事实视频及其问答对来训练多模态大模型,有效减少了模型在视频理解中因过度依赖文本先验而产生的‘幻觉’错误,并在多个测试中显著提升了性能。