📄 论文总结
VidEmo:基于情感线索推理的视频情感基础模型框架 / VidEmo: A Video Emotion Foundation Model Framework Based on Affective Cue Reasoning
1️⃣ 一句话总结
VidEmo是一个通过两阶段优化(课程情感学习和情感树强化学习)统一基础属性感知、表情分析和高级情感理解的视频情感基础模型框架,在15个人脸感知任务上达到竞争性性能。
2️⃣ 论文创新点
1. 情感线索引导的推理框架
- 创新点:通过两阶段优化过程统一基础属性感知、表情分析和高级情感理解的分阶段框架
- 区别/改进:解决了动态和上下文依赖的情感理解挑战
- 意义:为复杂情感状态提供可解释的理性分析
2. 课程情感学习
- 创新点:分三个阶段渐进式优化基础模型:属性调优、表情调优和情感调优
- 区别/改进:通过从简单属性到复杂情感的渐进学习,确保模型建立坚实的情感理解基础
- 意义:促进情感知识在整个过程中的平滑注入,提高模型情感理解能力
3. 情感树强化学习
- 创新点:使用基于混合情感树奖励的GRPO方法进行后训练
- 区别/改进:利用强化学习探索情感推理路径,最大化目标函数同时控制KL散度
- 意义:增强模型的情感推理能力,使其能有效生成情感输出
4. Emo-CFG数据集
- 创新点:包含210万多样化基于指令样本的情感中心细粒度数据集
- 区别/改进:提供可解释的情感问答、细粒度描述和相关原理
- 意义:为情感理解任务提供重要资源基础
3️⃣ 主要结果与价值
结果亮点
- 在1-3B和7-8B规模上相比现有开源VideoLLMs在15个面部感知任务上分别提升16.3%和14.2%
- 在Emo-CFG基准测试中,VidEmo在属性感知、表情分析和情感理解三个类别均取得最优性能
- VidEmo-T1在情感理解任务上达到69.3%,显著超过GPT-4o的48.0%
- 在下游面部表情识别任务中平均比EMO-LLaMA提升9.4%
实际价值
- 为视频内容分析和人机交互提供强大的情感理解能力
- 在细粒度视觉感知任务上展示强泛化能力
- 支持多模态学习和视频理解的新基准
4️⃣ 术语表
- VidEmo:视频情感基础模型,专为情感推理和指令跟随设计,结合课程情感学习和情感树推理,用于视频情感理解
- Emo-CFG:情感中心细粒度数据集,包含210万指令样本,具有情感中心标签、严格数据验证和高多样性
- GRPO:一种强化学习方法,通过采样输出并基于相对奖励训练策略模型
- 树编辑距离:将一个树转换为另一个树所需的最小编辑操作次数,用于量化两个情感树之间的差异
- VideoLLM:用于视频理解和情感分析的先进大语言模型,在数据标注中用于自我反思和理性生成