← 返回列表

🤖 系统

📄 Abstract - VidEmo: A Video Emotion Foundation Model Framework Based on Affective Cue Reasoning

⏳ 正在获取摘要...

📄 论文总结

VidEmo：基于情感线索推理的视频情感基础模型框架 / VidEmo: A Video Emotion Foundation Model Framework Based on Affective Cue Reasoning

1️⃣ 一句话总结

VidEmo是一个通过两阶段优化（课程情感学习和情感树强化学习）统一基础属性感知、表情分析和高级情感理解的视频情感基础模型框架，在15个人脸感知任务上达到竞争性性能。

2️⃣ 论文创新点

1. 情感线索引导的推理框架

创新点：通过两阶段优化过程统一基础属性感知、表情分析和高级情感理解的分阶段框架
区别/改进：解决了动态和上下文依赖的情感理解挑战
意义：为复杂情感状态提供可解释的理性分析

2. 课程情感学习

创新点：分三个阶段渐进式优化基础模型：属性调优、表情调优和情感调优
区别/改进：通过从简单属性到复杂情感的渐进学习，确保模型建立坚实的情感理解基础
意义：促进情感知识在整个过程中的平滑注入，提高模型情感理解能力

3. 情感树强化学习

创新点：使用基于混合情感树奖励的GRPO方法进行后训练
区别/改进：利用强化学习探索情感推理路径，最大化目标函数同时控制KL散度
意义：增强模型的情感推理能力，使其能有效生成情感输出

4. Emo-CFG数据集

创新点：包含210万多样化基于指令样本的情感中心细粒度数据集
区别/改进：提供可解释的情感问答、细粒度描述和相关原理
意义：为情感理解任务提供重要资源基础

3️⃣ 主要结果与价值

结果亮点

在1-3B和7-8B规模上相比现有开源VideoLLMs在15个面部感知任务上分别提升16.3%和14.2%
在Emo-CFG基准测试中，VidEmo在属性感知、表情分析和情感理解三个类别均取得最优性能
VidEmo-T1在情感理解任务上达到69.3%，显著超过GPT-4o的48.0%
在下游面部表情识别任务中平均比EMO-LLaMA提升9.4%

实际价值

为视频内容分析和人机交互提供强大的情感理解能力
在细粒度视觉感知任务上展示强泛化能力
支持多模态学习和视频理解的新基准

4️⃣ 术语表

VidEmo：视频情感基础模型，专为情感推理和指令跟随设计，结合课程情感学习和情感树推理，用于视频情感理解
Emo-CFG：情感中心细粒度数据集，包含210万指令样本，具有情感中心标签、严格数据验证和高多样性
GRPO：一种强化学习方法，通过采样输出并基于相对奖励训练策略模型
树编辑距离：将一个树转换为另一个树所需的最小编辑操作次数，用于量化两个情感树之间的差异
VideoLLM：用于视频理解和情感分析的先进大语言模型，在数据标注中用于自我反思和理性生成

📄 打开原文 PDF