arXiv最新AI论文速览速学

🔍

标签: #video comprehension ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation 01-01

arXiv ID: 2512.22905

arXiv 提交日期: 2025-12-28

multi-modal llm aigc audio-video generation multimodal llm instruction tuning synchronized generation video comprehension

JavisGPT：一个用于音视频理解与生成的统一多模态大语言模型 / JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

1️⃣ 一句话总结

这篇论文提出了首个能同时理解和生成音视频内容的统一多模态大模型JavisGPT，它通过创新的融合模块和分阶段训练方法，在复杂的音视频同步任务上表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17943

arXiv 提交日期: 2025-11-22

multi-agents multi-modal model evaluation scientific video understanding multimodal education deming cycle benchmark video comprehension

SciEducator：基于戴明循环多智能体系统的科学视频理解与教育 / SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

1️⃣ 一句话总结

这篇论文提出了一个名为SciEducator的多智能体系统，它利用戴明循环的自我进化机制来深入理解科学视频并自动生成多模态教育内容，在专业科学问答基准测试中显著优于现有先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.03929

arXiv 提交日期: 2025-11-06

multi-modal natural language processing model training vision-language document understanding video comprehension mamba-transformer token reduction

NVIDIA Nemotron Nano V2 VL / NVIDIA Nemotron Nano V2 VL

1️⃣ 一句话总结

这篇论文介绍了NVIDIA最新推出的视觉语言模型Nemotron Nano V2 VL，它通过改进模型架构和训练方法，在文档理解、长视频分析和推理任务上表现更出色，同时提升了处理长内容的效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10689

arXiv 提交日期: 2025-10-12

multi-modal benchmark model evaluation audio-visual understanding multimodal reasoning evaluation benchmark video comprehension modality complementarity

OmniVideoBench：面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1️⃣ 一句话总结

这篇论文提出了一个名为OmniVideoBench的大规模评估基准，专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力，发现现有模型与人类水平仍有较大差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.22905

1️⃣ 一句话总结

arXiv ID: 2511.17943

1️⃣ 一句话总结

arXiv ID: 2511.03929

1️⃣ 一句话总结

arXiv ID: 2510.10689

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.22905 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17943 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.03929 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10689 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.22905

arXiv ID: 2511.17943

arXiv ID: 2511.03929

arXiv ID: 2510.10689