📄 论文总结
视频大语言模型内部信息流机制分析 / Analyzing Internal Information Flow Mechanisms in Video Large Language Models
1️⃣ 一句话总结
本研究通过机制可解释性技术揭示了视频大语言模型在时序推理中的内部信息流动模式,发现模型通过早期跨帧交互构建时空表征,中期实现视频-语言渐进整合,后期完成答案生成的关键机制。
2️⃣ 论文创新点
1. 信息流路径分析
- 创新点:系统揭示VideoLLMs在时序推理中的内部信息流动模式
- 区别/改进:识别出跨帧交互、视频-语言整合和答案生成三个关键阶段
- 意义:为理解VideoLLMs工作机制提供完整蓝图,提升模型可解释性和下游泛化能力
2. 注意力剔除分析
- 创新点:通过选择性禁用注意力连接来量化其影响
- 区别/改进:揭示VideoLLMs通过VideoQA指令调优从基础ImageLLMs获得独特的时间推理能力
- 意义:证明跨帧注意力在早中层对构建时空表征的关键作用
3. 有效信息流路径识别
- 创新点:通过注意力限制实验识别对视频问答任务至关重要的跨帧交互和模态间交互路径
- 区别/改进:仅启用有效路径的注意力机制,在大幅减少计算量的同时保持模型性能
- 意义:为VideoLLMs的高效优化提供理论基础,揭示模型内部信息流动的关键机制
3️⃣ 主要结果与价值
结果亮点
- 在TVBench和TOMATO基准测试中,即使大幅减少注意力边数量(如LLaVA-NeXT-7B-Video-FT仅使用42%),模型性能仅有轻微下降
- 随机屏蔽相同比例的注意力边则导致性能显著下降,验证了有效信息流分析的有效性
- 正确答案的预测概率在第20层左右急剧上升,表明中层的视频到语言传播对正确答案决策至关重要
实际价值
- 为视频大语言模型的压缩和效率优化提供实践洞察
- 揭示了模型内部工作机制,有助于开发更可解释和可靠的视频理解系统
- 为跨模态时序推理任务提供了新的优化方向
4️⃣ 术语表
- VideoLLMs:视频大语言模型,将视觉语言模型能力扩展到时空输入的视频处理模型
- VideoQA:视频问答任务,要求对多帧视频进行时序推理并回答时间相关的问题
- Attention Knockout:注意力剔除技术,通过选择性禁用特定注意力连接来因果追踪信息流
- TVBench:多选视频问答基准,评估无静态偏好的时序理解能力
- Logit Lens:通过语言模型头投影隐藏状态来追踪词汇跨层演化的分析方法
- 时空表征:VideoLLMs通过跨帧交互构建的包含空间和时间信息的视频表示
- 有效路径:在VideoLLMs中识别出的对时序推理任务至关重要的信息流动路径,包括跨帧交互和模态间交互