📄 论文总结
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
1️⃣ 一句话总结
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
请先 登录 后再提交论文
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
FreeAskWorld:面向以人为中心的具身人工智能的交互式闭环模拟器 / FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
这篇论文提出了一个名为FreeAskWorld的交互式模拟平台,它利用大语言模型和社交认知理论来模拟复杂的人类行为,并通过扩展的导航任务和大型数据集证明,该平台能有效提升AI系统的语义理解和人机交互能力。
MVU-Eval:面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
这篇论文提出了首个多视频理解评估基准MVU-Eval,通过涵盖近5000个视频的1800多个问题,系统评估多模态大模型在跨视频感知与推理方面的能力,揭示了现有模型在处理多视频任务时的显著不足。
SWE-效率:语言模型能否在真实工作负载下优化现实世界代码库? / SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?
这篇论文提出了一个名为SWE-fficiency的基准测试,用于评估AI模型在真实代码库中优化运行速度的能力,发现当前先进模型的表现远低于人类专家,主要困难在于定位性能瓶颈和保持代码正确性。
基准设计者应“在测试集上训练”以暴露可利用的非视觉捷径 / Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
这篇论文提出了一种新的基准测试设计方法,要求设计者主动在测试集上训练模型来发现并消除非视觉捷径,从而确保多模态大模型评估更依赖视觉理解而非数据偏见。
GUI-360°:用于计算机使用代理的全面数据集与基准测试 / GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents
这篇论文提出了一个大规模数据集GUI-360°,通过自动化流程收集了超过120万次Windows办公软件操作记录,旨在解决计算机代理在图形界面理解、屏幕解析和行动预测方面的关键挑战,并为相关研究提供了统一的评估基准。
重访miniF2F-Lean:审视局限性与规划前进道路 / miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward
这篇论文通过分析数学奥林匹克竞赛基准数据集miniF2F中形式化与非形式化问题之间的差异,修复了其中一半以上的错误与不一致性,并发布改进版miniF2F-v2,显著提升了AI模型从理解题目到完成证明的全流程准确率,为形式化推理领域提供了更可靠的评估标准。
MME-CC:一个具有挑战性的认知能力多模态评估基准 / MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
这篇论文提出了一个名为MME-CC的新基准,专门用于系统评估多模态大模型在视觉相关认知能力(如空间、几何和知识推理)上的表现,发现当前模型在这些方面普遍较弱,并揭示了常见的错误模式,旨在推动未来模型设计的改进。
LEGO-Eval:利用工具增强对合成3D具身环境进行细粒度评估 / LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
本文提出了一个名为LEGO-Eval的评估框架和配套的LEGO-Bench基准,通过引入多样化工具来精确评估3D场景与细粒度指令的匹配程度,解决了现有方法在评估生成场景真实性方面的不足,从而提升具身智能体在真实环境中的学习效果。
可视化是推理的第一步:MIRA,一个视觉思维链基准 / When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
这篇论文提出了一个名为MIRA的新基准,用于评估人工智能模型在需要生成中间视觉图像(如草图或结构图)来辅助推理的任务上的表现,实验发现提供视觉线索能显著提升模型性能,强调了视觉想象在复杂推理中的关键作用。