arXiv ID:
2605.28604
arXiv 提交日期: 2026-05-27
挖掘多模态时空线索用于视频重要人物识别 / Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification
1️⃣ 一句话总结
本文提出一种新任务——视频重要人物识别,通过构建大规模带文本解释的数据集和设计融合多模态时空线索的VIP-Net框架,有效解决了视频中人物重要性随时间动态变化的问题,准确率大幅超越现有方法。