arXiv最新AI论文速览速学

🔍

标签: #temporal grounding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance 03-30

arXiv ID: 2603.24329

arXiv 提交日期: 2026-03-25

multi-modal benchmark agents video understanding multi-agent reasoning first-person perspective temporal grounding evaluation framework

GameplayQA：一个用于评估3D虚拟智能体在决策密集、第一人称视角同步多视频理解能力的基准框架 / GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

1️⃣ 一句话总结

这篇论文提出了一个名为GameplayQA的新基准测试框架，通过密集标注多人3D游戏视频并设计诊断性问题，来评估多模态大模型在复杂动态环境中（如理解快速状态变化、区分不同智能体行为并进行推理）的感知与推理能力，发现当前先进模型与人类表现仍有巨大差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22872

arXiv 提交日期: 2026-03-24

video multi-modal benchmark forensic search video surveillance video question answering temporal grounding video retrieval

ForeSea：支持多模态查询的视频监控AI取证搜索系统 / ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

1️⃣ 一句话总结

这篇论文提出了一个名为ForeSea的新系统和一个配套的基准数据集ForeSeaQA，用于解决在长时段多摄像头监控视频中，通过结合图像和文字进行复杂查询并精确定位事件时间的难题，显著提升了搜索的准确性和时间定位精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07689

arXiv 提交日期: 2026-02-07

multi-modal video model evaluation video reasoning process-of-thought temporal grounding interpretability vision-language models

视频的思维过程推理 / Process-of-Thought Reasoning for Videos

1️⃣ 一句话总结

这篇论文提出了一个名为‘思维过程’的视频推理框架，它将复杂的视频理解任务分解成一系列可验证的步骤，从而让推理过程更清晰、更准确，并减少错误，同时适用于不同的现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24097

arXiv 提交日期: 2025-12-30

multi-modal model training video temporal grounding video-language models preference optimization factorized learning evidence referencing

面向时序定位视频语言模型的因子化学习 / Factorized Learning for Temporally Grounded Video-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为D²VLM的新框架，通过将视频理解中的时序定位和文本生成两个任务解耦并强调其依赖关系，并引入一种新的因子化偏好优化算法，显著提升了模型对视频中事件进行精准时间定位和可靠回答的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20618

arXiv 提交日期: 2025-12-23

multi-modal agents model evaluation long video understanding multi-agent reasoning reinforcement learning video question answering temporal grounding

LongVideoAgent：基于多智能体推理的长视频理解框架 / LongVideoAgent: Multi-Agent Reasoning with Long Videos

1️⃣ 一句话总结

这篇论文提出了一个多智能体框架，通过一个主智能体协调两个子智能体来精准定位视频片段并提取视觉细节，从而有效解决了长视频问答中信息丢失和时序定位不准的难题，在多个数据集上显著超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14273

arXiv 提交日期: 2025-12-16

multi-modal video model evaluation video question answering temporal grounding reinforcement learning video-language models coarse-to-fine

Zoom-Zero：通过时序放大进行从粗到细的强化视频理解 / Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

1️⃣ 一句话总结

这篇论文提出了一个名为Zoom-Zero的新方法，它通过‘先粗略定位、再放大细节’的两步策略，并结合创新的强化学习奖励机制，有效提升了视频问答系统在定位关键片段和生成准确答案方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.24329

1️⃣ 一句话总结

arXiv ID: 2603.22872

1️⃣ 一句话总结

arXiv ID: 2602.07689

1️⃣ 一句话总结

arXiv ID: 2512.24097

1️⃣ 一句话总结

arXiv ID: 2512.20618

1️⃣ 一句话总结

arXiv ID: 2512.14273

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.24329 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24097 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14273 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.24329

arXiv ID: 2603.22872

arXiv ID: 2602.07689

arXiv ID: 2512.24097

arXiv ID: 2512.20618

arXiv ID: 2512.14273