📄 论文总结
MARS2 2025:多模态推理与慢思维挑战赛
MARS2 2025: Multimodal Reasoning and Slow Thinking Challenge
1️⃣ 一句话总结
MARS2 2025是一个专注于多模态机器学习和大语言模型的大型基准测试挑战赛,通过发布Lens和AdsQA两个定制数据集,评估模型在现实世界通用场景和广告视频领域的复杂推理能力,吸引了76个团队参与并提交了1200多份作品。
2️⃣ 论文创新点
1. Lens多级多模态推理数据集
- 创新点是什么:一个从社交媒体手动收集的多模态推理数据集,包含3.4K图像和60K+问题,覆盖感知、理解、推理三个渐进任务层级和8个任务类型及12个日常场景,53%的样本发布于2025年1月后。
- 与已有方法的区别/改进:使用2025年后发布的社交媒体图像减少模型固有知识对推理性能的影响
- 为什么有意义:为研究不同推理任务间的协同效应提供了首个专门数据集,现有顶级模型准确率均低于60%,挑战性显著
2. AdsQA广告视频问答数据集
- 创新点是什么:首个基于广告视频的问答基准,源自1,544个广告视频,包含10,962个剪辑总时长22.7小时,支持视觉概念理解、情感识别、主题提取等五个开放问答任务。
- 与已有方法的区别/改进:填补了广告视频领域多模态推理评估的空白
- 为什么有意义:推动了LLM在专业领域视频理解中的应用,需要独特的推理技能
3. 多赛道评估框架
- 创新点是什么:设计了三个竞赛赛道:Track #1 (VG-RS)评估场景感知和空间推理,Track #2 (VQA-SA)评估空间和常识推理,Track #3 (VR-Ads)评估广告中的认知推理。
- 与已有方法的区别/改进:通过共享数据分布研究推理任务间的协同效应,并评估非逐步复杂推理
- 为什么有意义:全面评估MLLM在真实场景和创意广告中的多维推理能力
4. 自动化评估与多数投票机制
- 创新点是什么:使用自动化评估器(如gpt-4o-2024-08-06)对预测结果和人工标注进行评估,通过生成多个候选响应并采用多数投票确定正确性。
- 与已有方法的区别/改进:提高了评估的效率和一致性,减少了人工评估的主观性
- 为什么有意义:为大规模竞赛提供了可靠、可扩展的评估方案,确保结果公平客观
3️⃣ 主要结果与价值
实验结果亮点
- 最先进模型(如Gemini 2.5 Pro)在AdsQA上准确率为60.7%,与人类表现(71.4%)存在差距
- Lens数据集上现有顶级模型准确率均低于60%,显示出显著的挑战性
- 参赛方案普遍采用集成学习、数据增强、提示工程和对齐训练(特别是GRPO)等共享技术
- 通用模型与专用模型协作的策略是一种有效的处理复杂多模态推理任务的新范式
实际应用价值
- 为研究者提供了大规模、多样化的测试平台,推动了多模态推理在更广泛实际场景中的应用和发展
- 开源的竞赛资源(数据集、代码集、排名)为多模态推理领域的研究和发展提供了重要的评估标准和参考依据
- 广告视频理解技术的进步可直接应用于数字营销和广告效果评估领域
4️⃣ 术语表
- MLLMs:Multimodal Large Language Models,多模态大语言模型,扩展了语言模型的应用边界并推进了多模态能力
- Chain-of-Thought (CoT):思维链,大型语言模型所展现出的一种推理能力
- MARS2:Multimodal Reasoning and Slow Thinking Workshop,专注于多模态推理和慢思维的研讨会与挑战赛
- System 2:指Kahneman双过程理论中的慢思考系统,需要复杂推理和深度思考
- IoU:交并比(Intersection-over-Union),用于评估视觉定位任务中预测边界框与真实框的重合度,阈值为0.5
- GRPO:Group Relative Policy Optimization,一种用于模型对齐训练的强化学习算法
- Qwen2.5-VL:一个先进的开源视觉语言模型,被多个参赛团队用作基础模型
- VG-SMART:SNR-Driven Data Synthesis based Multi-Stage Alignment Combining Supervised Fine-Tuning and Reinforcement Training,一种多阶段后训练视觉定位方法,用于MARS2 2025 Track #1的冠军解决方案