arXiv ID:
2605.26244
arXiv 提交日期: 2026-05-25
LongAV-Compass:面向分钟级音视频生成的统一评估框架——涵盖文本、图像和视频条件生成 / LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV
1️⃣ 一句话总结
该论文提出了一个名为LongAV-Compass的系统性基准测试,专门用于评估分钟级别的音视频生成任务,覆盖文本、图像和视频三种输入条件,并通过细粒度的多维指标和多种模型实验,揭示现有系统在长时间生成中在身份一致性、叙事连贯性和音视频对齐等方面的不足。