arXiv ID:
2606.22766
arXiv 提交日期: 2026-06-22
超越所见:利用强化学习生成精准且连贯的音频描述 / READ More than What You See: Reinforcement Learning for Accurate and Coherent Audio Description Generations
1️⃣ 一句话总结
本文提出READ框架,首次将强化学习应用于音频描述生成任务,通过设计多种奖励机制(包括参考匹配、长度、格式和连贯性奖励),显著提升了描述内容的准确性与叙事连贯性,在多项评测中超越了现有方法。