← 返回列表

🤖 系统

📄 Abstract - TIR-Bench: A Benchmark for Evaluating Thinking-with-Images Reasoning in Multimodal Large Language Models

⏳ 正在获取摘要...

📄 论文总结

TIR-Bench：多模态大语言模型图像思维推理能力评估基准 / TIR-Bench: A Benchmark for Evaluating Thinking-with-Images Reasoning in Multimodal Large Language Models

1️⃣ 一句话总结

本文提出了TIR-Bench基准，用于全面评估多模态大语言模型在图像思维推理中的能力，特别关注模型使用工具进行主动图像处理和操作的能力。

2️⃣ 论文创新点

1. TIR-Bench基准设计

创新点：一个专门用于评估代理式思维-与-图像能力的综合基准，包含13个多样化任务，每个任务都需要在思维链中使用新颖工具进行图像处理操作
区别/改进：克服了现有基准（如Visual Search）仅测试基本操作（如定位和裁剪）的局限性，引入了更复杂、动态和工具依赖的推理任务
意义：提供了对模型思维-与-图像能力的更全面评估，推动了视觉推理前沿的发展

2. 多样化任务架构

创新点：基准包含13个不同任务，涵盖程序分析、空间推理、算法谜题和细粒度感知等多个方面
区别/改进：每个任务都设计为无法通过单步策略解决，必须使用多步骤工具策略
意义：能够有效区分真正的图像思维推理与简单的视觉识别，探测当前模型的局限性

3. 代理监督微调方法

创新点：基于完整问题解决轨迹和生成图像的监督微调方法
区别/改进：比直接SFT更有效，支持复杂多步骤任务
意义：使模型涌现更鲁棒的问题解决行为，处理直接微调难以解决的任务

3️⃣ 主要结果与价值

结果亮点

TIR-Bench对所有模型类型都具有挑战性（最高准确率仅46%），工具使用模型（如o3、o4-mini、PyVision）表现优于传统非代理模型
o3-TU模型表现最佳（46%准确率），显著优于非工具使用模型，PyVision相比GPT-4.1带来13%的准确率提升
代理工具使用能力对TIR-Bench至关重要，基于代码的感知比原始视觉能力更可靠

实际价值

揭示了当前MLLMs在复杂图像推理任务上的局限性，为未来模型开发提供了重要方向
证明了工具使用能力在提升MLLM性能中的关键作用，为解决复杂图像推理任务提供了有效技术路径
为评估和比较不同MLLM在图像思维推理能力方面提供了标准化基准

4️⃣ 术语表

TIR-Bench：Thinking with Images Benchmark，专门用于评估模型图像思维能力的基准测试，包含13个任务、1215个样本的多模态大语言模型评估基准
thinking with images：图像思维，指模型能够主动使用工具进行多步骤视觉操作和推理的认知能力
MLLM：多模态大语言模型，能够处理和理解图像、文本等多种模态信息
agentic SFT：代理监督微调，基于完整问题解决轨迹进行训练，比直接SFT更有效
o3-TU：具有工具使用能力的o3模型变体，能够编写可执行代码来操作图像
PyVision：基于GPT-4.1实现的具有图像思维能力的模型

📄 打开原文 PDF