arXiv ID:
2605.19075
arXiv 提交日期: 2026-05-18
CRAFT:面向多模态视频问答的批评者优化自适应关键帧定位方法 / CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering
1️⃣ 一句话总结
本文提出了一种名为CRAFT的智能视频问答系统,它能像一位严谨的侦探一样,自动从多个新闻视频中找出与问题最相关的关键画面和语音信息,并通过多次交叉验证来确保每条答案都准确无误地标注了来源,最终在权威测试中取得了领先的准确率和引用可靠性。