← 返回列表

菜单

🤖 系统
📄 Abstract - TIR-Bench: A Benchmark for Evaluating Thinking-with-Images Reasoning in Multimodal Large Language Models
正在获取摘要...
详细标签: multimodal reasoning tool usage visual reasoning evaluation benchmark agentic capabilities 或 搜索:

📄 论文总结

TIR-Bench:多模态大语言模型图像思维推理能力评估基准 / TIR-Bench: A Benchmark for Evaluating Thinking-with-Images Reasoning in Multimodal Large Language Models


1️⃣ 一句话总结

本文提出了TIR-Bench基准,用于全面评估多模态大语言模型在图像思维推理中的能力,特别关注模型使用工具进行主动图像处理和操作的能力。


2️⃣ 论文创新点

1. TIR-Bench基准设计

2. 多样化任务架构

3. 代理监督微调方法


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF