arXiv ID:
2602.20159
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
1️⃣ 一句话总结
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。
视频的思维过程推理 / Process-of-Thought Reasoning for Videos
这篇论文提出了一个名为‘思维过程’的视频推理框架,它将复杂的视频理解任务分解成一系列可验证的步骤,从而让推理过程更清晰、更准确,并减少错误,同时适用于不同的现有模型。
Video-BrowseComp:在开放网络上对智能体视频研究进行基准测试 / Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
这篇论文提出了首个名为Video-BrowseComp的基准测试,专门用于评估AI智能体在开放网络上主动搜索、观看并分析视频内容以回答复杂问题的能力,揭示了当前先进模型在此类需要视觉时序推理的任务上表现仍然很差。
SAGE:利用强化学习训练智能任意时长代理进行长视频推理 / SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
这篇论文提出了一种名为SAGE的智能视频理解系统,它模仿人类灵活观看视频的方式,能够根据任务难度自动决定是快速浏览长视频还是仔细观看短视频片段,并通过创新的合成数据生成和强化学习方法,显著提升了处理超长视频内容的理解能力。
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
Video-R4:通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
这篇论文提出了一种名为Video-R4的视频推理模型,它通过模拟人类反复观察关键区域的行为,迭代地放大和重新分析视频帧中的文本细节,从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。
V-ReasonBench:面向视频生成模型的统一推理基准测试套件 / V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
这篇论文提出了一个名为V-ReasonBench的基准测试工具,用于系统评估视频生成模型在结构化问题解决、空间认知、模式推理和物理动态四个关键维度的推理能力,帮助开发更可靠、符合人类思维的AI模型。
视频推理:通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力,发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型,并能通过多样化采样提升推理可靠性。
请先 登录 后再提交论文