← 返回列表

🤖 系统

📄 Abstract - AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

⏳ 正在获取摘要...

📄 论文总结

AVoCaDO：基于视听时序编排的视频字幕生成器 / AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

1️⃣ 一句话总结

AVoCaDO是一个通过两阶段后训练流程优化的视听视频字幕生成模型，强调视觉和听觉事件的时间同步对齐，在多个基准测试中显著优于现有开源模型。

2️⃣ 论文创新点

1. 视听时序编排驱动架构

创新点：基于Qwen2.5-Omni构建的视频字幕生成器，有效整合视觉和听觉事件信息，强调时间同步对齐
区别/改进：解决了现有视觉中心方法忽略音频信号丰富语义线索的问题
意义：为构建更强大的视频理解和生成系统提供基础路径

2. 两阶段后训练流程

创新点：AVoCaDO SFT阶段使用10.7万高质量视听字幕数据进行监督微调；AVoCaDO GRPO阶段使用定制奖励函数进行强化学习优化
区别/改进：增强时间连贯性和对话准确性，同时规范化字幕长度和减少崩溃
意义：显著提升视听视频字幕生成性能

3. 复合奖励函数设计

创新点：在GRPO阶段结合三种互补奖励：基于检查清单的奖励(Rc)确保关键事件覆盖、基于对话的奖励(Rd)优化对话准确性和说话人识别、长度正则化奖励(RL)防止重复崩溃
区别/改进：通过多维度奖励信号优化模型训练效果
意义：系统提升生成字幕的细节精确度、关键事件覆盖率和整体简洁性与质量

4. 高质量数据构建方法

创新点：采用两阶段描述策略：先生成视频帧和音频的单独描述，再融合成时序一致的多模态描述，配合严格质量检查
区别/改进：解决了直接生成联合描述可能导致的信息遗漏问题
意义：获得语义丰富且时序对齐的高质量描述

3️⃣ 主要结果与价值

结果亮点

在多个基准测试(Daily-Omni、WorldSense、VDC Detailed、DREAM-1K等)中优于同类开源模型和Qwen3-Omni系列
在视听事件对齐类别上性能提升27.8%
在纯视觉设置下也表现优异，展示强大泛化能力

实际价值

为视频内容理解、自动字幕生成、视频检索等应用提供高质量解决方案
通过高效的GRPO训练方法减少训练时间和GPU内存使用，提升部署效率
生成的字幕具有更好的时间连贯性和对话准确性，提升用户体验

4️⃣ 术语表

AVoCaDO：基于视听时序编排驱动的视频字幕生成器，通过两阶段后训练流程优化视听事件的时间同步对齐
GRPO：Group Relative Policy Optimization，一种策略优化算法，通过采样一组响应并计算相对优势来更新策略，无需单独的critic模型
Daily-Omni：用于评估视听视频理解性能的基准数据集，通过QA任务评估字幕质量，要求模型理解单模态或双模态及其时序关系
MLLMs：多模态大语言模型，能够处理和理解多种模态(如文本、图像、视频)的信息
Temporal Video Grounding：时序视频定位，旨在根据文本查询在视频中定位特定事件发生的时间段

📄 打开原文 PDF