arXiv ID:
2606.25325
arXiv 提交日期: 2026-06-24
全感知策略优化:面向多模态情感推理的强化学习方法 / Omni-Perception Policy Optimization for Multimodal Emotion Reasoning
1️⃣ 一句话总结
本文提出了一种名为OPPO的强化学习框架,通过精细化的视觉、听觉和情感线索奖励机制以及跨模态幻觉抑制方法,显著提升了多模态大模型在情感推理任务中利用和忠实于各模态信息的能力,并在多个基准测试中取得了最佳性能。