🤖 系统
10-14 16:04
📄 论文总结
AVoCaDO:基于视听时序编排的视频字幕生成器 / AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
1️⃣ 一句话总结
AVoCaDO是一个通过两阶段后训练流程优化的视听视频字幕生成模型,强调视觉和听觉事件的时间同步对齐,在多个基准测试中显著优于现有开源模型。
2️⃣ 论文创新点
1. 视听时序编排驱动架构
- 创新点:基于Qwen2.5-Omni构建的视频字幕生成器,有效整合视觉和听觉事件信息,强调时间同步对齐
- 区别/改进:解决了现有视觉中心方法忽略音频信号丰富语义线索的问题
- 意义:为构建更强大的视频理解和生成系统提供基础路径
2. 两阶段后训练流程
- 创新点:AVoCaDO SFT阶段使用10.7万高质量视听字幕数据进行监督微调;AVoCaDO GRPO阶段使用定制奖励函数进行强化学习优化
- 区别/改进:增强时间连贯性和对话准确性,同时规范化字幕长度和减少崩溃
- 意义:显著提升视听视频字幕生成性能
3. 复合奖励函数设计
- 创新点:在GRPO阶段结合三种互补奖励:基于检查清单的奖励(Rc)确保关键事件覆盖、基于对话的奖励(Rd)优化对话准确性和说话人识别、长度正则化奖励(RL)防止重复崩溃
- 区别/改进:通过多维度奖励信号优化模型训练效果
- 意义:系统提升生成字幕的细节精确度、关键事件覆盖率和整体简洁性与质量
4. 高质量数据构建方法
- 创新点:采用两阶段描述策略:先生成视频帧和音频的单独描述,再融合成时序一致的多模态描述,配合严格质量检查
- 区别/改进:解决了直接生成联合描述可能导致的信息遗漏问题
- 意义:获得语义丰富且时序对齐的高质量描述
3️⃣ 主要结果与价值
结果亮点
- 在多个基准测试(Daily-Omni、WorldSense、VDC Detailed、DREAM-1K等)中优于同类开源模型和Qwen3-Omni系列
- 在视听事件对齐类别上性能提升27.8%
- 在纯视觉设置下也表现优异,展示强大泛化能力
实际价值
- 为视频内容理解、自动字幕生成、视频检索等应用提供高质量解决方案
- 通过高效的GRPO训练方法减少训练时间和GPU内存使用,提升部署效率
- 生成的字幕具有更好的时间连贯性和对话准确性,提升用户体验
4️⃣ 术语表
- AVoCaDO:基于视听时序编排驱动的视频字幕生成器,通过两阶段后训练流程优化视听事件的时间同步对齐
- GRPO:Group Relative Policy Optimization,一种策略优化算法,通过采样一组响应并计算相对优势来更新策略,无需单独的critic模型
- Daily-Omni:用于评估视听视频理解性能的基准数据集,通过QA任务评估字幕质量,要求模型理解单模态或双模态及其时序关系
- MLLMs:多模态大语言模型,能够处理和理解多种模态(如文本、图像、视频)的信息
- Temporal Video Grounding:时序视频定位,旨在根据文本查询在视频中定位特定事件发生的时间段