📄 论文总结
基准设计者应“在测试集上训练”以暴露可利用的非视觉捷径 / Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
1️⃣ 一句话总结
这篇论文提出了一种新的基准测试设计方法,要求设计者主动在测试集上训练模型来发现并消除非视觉捷径,从而确保多模态大模型评估更依赖视觉理解而非数据偏见。
请先 登录 后再提交论文
基准设计者应“在测试集上训练”以暴露可利用的非视觉捷径 / Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
这篇论文提出了一种新的基准测试设计方法,要求设计者主动在测试集上训练模型来发现并消除非视觉捷径,从而确保多模态大模型评估更依赖视觉理解而非数据偏见。
GUI-360°:用于计算机使用代理的全面数据集与基准测试 / GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents
这篇论文提出了一个大规模数据集GUI-360°,通过自动化流程收集了超过120万次Windows办公软件操作记录,旨在解决计算机代理在图形界面理解、屏幕解析和行动预测方面的关键挑战,并为相关研究提供了统一的评估基准。
重访miniF2F-Lean:审视局限性与规划前进道路 / miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward
这篇论文通过分析数学奥林匹克竞赛基准数据集miniF2F中形式化与非形式化问题之间的差异,修复了其中一半以上的错误与不一致性,并发布改进版miniF2F-v2,显著提升了AI模型从理解题目到完成证明的全流程准确率,为形式化推理领域提供了更可靠的评估标准。
MME-CC:一个具有挑战性的认知能力多模态评估基准 / MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
这篇论文提出了一个名为MME-CC的新基准,专门用于系统评估多模态大模型在视觉相关认知能力(如空间、几何和知识推理)上的表现,发现当前模型在这些方面普遍较弱,并揭示了常见的错误模式,旨在推动未来模型设计的改进。
LEGO-Eval:利用工具增强对合成3D具身环境进行细粒度评估 / LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
本文提出了一个名为LEGO-Eval的评估框架和配套的LEGO-Bench基准,通过引入多样化工具来精确评估3D场景与细粒度指令的匹配程度,解决了现有方法在评估生成场景真实性方面的不足,从而提升具身智能体在真实环境中的学习效果。
可视化是推理的第一步:MIRA,一个视觉思维链基准 / When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
这篇论文提出了一个名为MIRA的新基准,用于评估人工智能模型在需要生成中间视觉图像(如草图或结构图)来辅助推理的任务上的表现,实验发现提供视觉线索能显著提升模型性能,强调了视觉想象在复杂推理中的关键作用。
CostBench:评估动态环境中LLM工具使用代理的多轮成本最优规划与适应能力 / CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
这篇论文提出了一个名为CostBench的新评估基准,专门用于测试AI代理在动态环境中制定和调整经济高效计划的能力,发现当前先进模型在成本优化规划和实时适应方面存在显著不足。
VCode:一种以SVG作为符号视觉表示的多模态编码基准 / VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
这篇论文提出了一个名为VCode的多模态编码基准,将图像理解任务转化为生成SVG代码的问题,并引入了一个评估方法和智能代理框架来提升模型在视觉符号表示上的准确性和推理能力。
协作鸿沟 / The Collaboration Gap
这篇论文通过一个迷宫求解实验发现,即使单个AI模型表现优秀,它们在相互协作时性能也会显著下降,揭示了AI系统间存在的‘协作鸿沟’,并提出了由强模型主导的‘接力推理’方法来改善协作效果。
视觉输入能否被压缩?面向大型多模态模型的视觉令牌压缩基准 / Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
这篇论文提出了一个名为UniPruneBench的统一基准测试平台,用于系统评估大型多模态模型中视觉令牌压缩方法的性能,发现随机剪枝是一个意外强大的基线方法,且压缩比例是影响模型性能的主要因素。