arXiv最新AI论文速览速学

📄

2511.18685

🤖 系统

12-04 14:37

multi-modal benchmark agents

embodied ai action understanding video reasoning cognitive benchmarking fine-grained action

超越描述：为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为CFG-Bench的新基准测试，专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力，发现当前主流模型在此方面存在显著不足，但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20785

🤖 系统

12-02 15:24

multi-modal agents model training

video reasoning tool calling long-form video agentic framework multimodal chain-of-thought

LongVT：通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

1️⃣ 一句话总结

这篇论文提出了一个名为LongVT的智能框架，它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程，通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案，有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题，并在多个评测中表现优异。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.17490

🤖 系统

11-30 17:56

multi-modal video model training

video reasoning visual rumination reinforcement learning text-rich video multimodal reasoning

📄 论文总结

Video-R4：通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

1️⃣ 一句话总结

这篇论文提出了一种名为Video-R4的视频推理模型，它通过模拟人类反复观察关键区域的行为，迭代地放大和重新分析视频帧中的文本细节，从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.16668

🤖 系统

11-30 17:56

video generation benchmark model evaluation

video reasoning evaluation framework spatial cognition physical dynamics hallucination analysis

📄 论文总结

V-ReasonBench：面向视频生成模型的统一推理基准测试套件 / V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

1️⃣ 一句话总结

这篇论文提出了一个名为V-ReasonBench的基准测试工具，用于系统评估视频生成模型在结构化问题解决、空间认知、模式推理和物理动态四个关键维度的推理能力，帮助开发更可靠、符合人类思维的AI模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.15065

🤖 系统

11-30 17:55

video model evaluation benchmark

video reasoning spatial reasoning maze-solving video generation evaluation benchmark

📄 论文总结

视频推理：通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

1️⃣ 一句话总结

这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力，发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型，并能通过多样化采样提升推理可靠性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.13704

🤖 系统

11-30 17:55

video generation model evaluation benchmark

video reasoning evaluation benchmark test-time optimization reasoning capabilities video generation models

📄 论文总结

TiViBench：视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

1️⃣ 一句话总结

这篇论文提出了一个名为TiViBench的基准测试，专门用于评估视频生成模型在视频中进行复杂推理的能力，并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.11113

🤖 系统

11-30 17:54

video model training multi-modal

video reasoning reinforcement fine-tuning chain-of-thought process-aware modeling video language models

📄 论文总结

VIDEOP2R：从感知到推理的视频理解 / VIDEOP2R: Video Understanding from Perception to Reasoning

1️⃣ 一句话总结

本文提出VideoP2R框架，通过将视频理解分为感知和推理两个独立过程进行建模与优化，在多个视频推理基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.07250

🤖 系统

11-30 17:52

multi-modal model evaluation benchmark

multi-video understanding multimodal llms evaluation benchmark video reasoning cross-video analysis

📄 论文总结

MVU-Eval：面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了首个多视频理解评估基准MVU-Eval，通过涵盖近5000个视频的1800多个问题，系统评估多模态大模型在跨视频感知与推理方面的能力，揭示了现有模型在处理多视频任务时的显著不足。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.05489

🤖 系统

11-30 17:51

video reinforcement learning model training

temporal search long-form video self-verification video reasoning benchmark evaluation

📄 论文总结

TimeSearch-R：通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为TimeSearch-R的新方法，它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧，从而更完整、准确地理解视频内容，并在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.20579

🤖 系统

11-30 17:45

video multi-modal model training

video reasoning spatio-temporal grounding reinforcement learning benchmark evaluation evidence localization

📄 论文总结

Open-o3 视频：基于显式时空证据的视频推理 / Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

1️⃣ 一句话总结

这篇论文提出了一个视频推理模型，它不仅能回答问题，还能自动标出视频中关键证据发生的时间和位置，通过专门构建的数据集和强化学习策略，在多个视频理解任务上取得了领先性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.18685

1️⃣ 一句话总结

2511.20785

1️⃣ 一句话总结

2511.17490

📄 论文总结

1️⃣ 一句话总结

2511.16668

📄 论文总结

1️⃣ 一句话总结

2511.15065

📄 论文总结

1️⃣ 一句话总结

2511.13704

📄 论文总结

1️⃣ 一句话总结

2511.11113

📄 论文总结

1️⃣ 一句话总结

2511.07250

📄 论文总结

1️⃣ 一句话总结

2511.05489

📄 论文总结

1️⃣ 一句话总结

2510.20579

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.18685 📝

1️⃣ 一句话总结

2511.20785 📝

1️⃣ 一句话总结

2511.17490 📝

📄 论文总结

1️⃣ 一句话总结

2511.16668 📝

📄 论文总结

1️⃣ 一句话总结

2511.15065 📝

📄 论文总结

1️⃣ 一句话总结

2511.13704 📝

📄 论文总结

1️⃣ 一句话总结

2511.11113 📝

📄 论文总结

1️⃣ 一句话总结

2511.07250 📝

📄 论文总结

1️⃣ 一句话总结

2511.05489 📝

📄 论文总结

1️⃣ 一句话总结

2510.20579 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.18685

2511.20785

2511.17490

2511.16668

2511.15065

2511.13704

2511.11113

2511.07250

2511.05489

2510.20579