🤖 系统
11-30 17:39
📄 论文总结
AVoCaDO:基于时序编排的音视频字幕生成器 / AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
1️⃣ 一句话总结
这篇论文提出了一个名为AVoCaDO的音视频字幕生成模型,它通过两阶段训练方法有效整合视觉与听觉信息,生成时间上精确对齐的描述,在多个评测基准上显著优于现有开源模型。
请先 登录 后再提交论文
AVoCaDO:基于时序编排的音视频字幕生成器 / AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
这篇论文提出了一个名为AVoCaDO的音视频字幕生成模型,它通过两阶段训练方法有效整合视觉与听觉信息,生成时间上精确对齐的描述,在多个评测基准上显著优于现有开源模型。