📄 论文总结
TIR-Bench:多模态大语言模型图像思维推理能力评估基准 / TIR-Bench: A Benchmark for Evaluating Thinking-with-Images Reasoning in Multimodal Large Language Models
1️⃣ 一句话总结
本文提出了TIR-Bench基准,用于全面评估多模态大语言模型在图像思维推理中的能力,特别关注模型使用工具进行主动图像处理和操作的能力。
2️⃣ 论文创新点
1. TIR-Bench基准设计
- 创新点:一个专门用于评估代理式思维-与-图像能力的综合基准,包含13个多样化任务,每个任务都需要在思维链中使用新颖工具进行图像处理操作
- 区别/改进:克服了现有基准(如Visual Search)仅测试基本操作(如定位和裁剪)的局限性,引入了更复杂、动态和工具依赖的推理任务
- 意义:提供了对模型思维-与-图像能力的更全面评估,推动了视觉推理前沿的发展
2. 多样化任务架构
- 创新点:基准包含13个不同任务,涵盖程序分析、空间推理、算法谜题和细粒度感知等多个方面
- 区别/改进:每个任务都设计为无法通过单步策略解决,必须使用多步骤工具策略
- 意义:能够有效区分真正的图像思维推理与简单的视觉识别,探测当前模型的局限性
3. 代理监督微调方法
- 创新点:基于完整问题解决轨迹和生成图像的监督微调方法
- 区别/改进:比直接SFT更有效,支持复杂多步骤任务
- 意义:使模型涌现更鲁棒的问题解决行为,处理直接微调难以解决的任务
3️⃣ 主要结果与价值
结果亮点
- TIR-Bench对所有模型类型都具有挑战性(最高准确率仅46%),工具使用模型(如o3、o4-mini、PyVision)表现优于传统非代理模型
- o3-TU模型表现最佳(46%准确率),显著优于非工具使用模型,PyVision相比GPT-4.1带来13%的准确率提升
- 代理工具使用能力对TIR-Bench至关重要,基于代码的感知比原始视觉能力更可靠
实际价值
- 揭示了当前MLLMs在复杂图像推理任务上的局限性,为未来模型开发提供了重要方向
- 证明了工具使用能力在提升MLLM性能中的关键作用,为解决复杂图像推理任务提供了有效技术路径
- 为评估和比较不同MLLM在图像思维推理能力方面提供了标准化基准
4️⃣ 术语表
- TIR-Bench:Thinking with Images Benchmark,专门用于评估模型图像思维能力的基准测试,包含13个任务、1215个样本的多模态大语言模型评估基准
- thinking with images:图像思维,指模型能够主动使用工具进行多步骤视觉操作和推理的认知能力
- MLLM:多模态大语言模型,能够处理和理解图像、文本等多种模态信息
- agentic SFT:代理监督微调,基于完整问题解决轨迹进行训练,比直接SFT更有效
- o3-TU:具有工具使用能力的o3模型变体,能够编写可执行代码来操作图像
- PyVision:基于GPT-4.1实现的具有图像思维能力的模型