超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
1️⃣ 一句话总结
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
请先 登录 后再提交论文
超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
Video-R4:通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
这篇论文提出了一种名为Video-R4的视频推理模型,它通过模拟人类反复观察关键区域的行为,迭代地放大和重新分析视频帧中的文本细节,从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。
V-ReasonBench:面向视频生成模型的统一推理基准测试套件 / V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
这篇论文提出了一个名为V-ReasonBench的基准测试工具,用于系统评估视频生成模型在结构化问题解决、空间认知、模式推理和物理动态四个关键维度的推理能力,帮助开发更可靠、符合人类思维的AI模型。
视频推理:通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力,发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型,并能通过多样化采样提升推理可靠性。
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
VIDEOP2R:从感知到推理的视频理解 / VIDEOP2R: Video Understanding from Perception to Reasoning
本文提出VideoP2R框架,通过将视频理解分为感知和推理两个独立过程进行建模与优化,在多个视频推理基准测试中取得了领先性能。
MVU-Eval:面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
这篇论文提出了首个多视频理解评估基准MVU-Eval,通过涵盖近5000个视频的1800多个问题,系统评估多模态大模型在跨视频感知与推理方面的能力,揭示了现有模型在处理多视频任务时的显著不足。
TimeSearch-R:通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
这篇论文提出了一种名为TimeSearch-R的新方法,它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧,从而更完整、准确地理解视频内容,并在多个基准测试中取得了领先性能。
Open-o3 视频:基于显式时空证据的视频推理 / Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
这篇论文提出了一个视频推理模型,它不仅能回答问题,还能自动标出视频中关键证据发生的时间和位置,通过专门构建的数据集和强化学习策略,在多个视频理解任务上取得了领先性能。