arXiv最新AI论文速览速学

🔍

标签: #video-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models 05-02

arXiv ID: 2604.24002

arXiv 提交日期: 2026-04-27

robotics computer vision llm intention recognition video-language models human-robot interaction forward-inverse modeling open-vocabulary

IntentVLM：通过视频-语言模型的前向-逆向建模实现开放词汇意图识别 / IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models

1️⃣ 一句话总结

该论文提出了一种名为IntentVLM的视频-语言框架，通过模拟人类认知中的“先设想目标、再反向推理”的两步过程，让机器人能更准确地理解人类在视频中表达的复杂意图，并在多个测试中达到接近人类的水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12944

arXiv 提交日期: 2026-04-14

video llm model evaluation hallucination video-language models benchmark temporal representation visual grounding

失真还是捏造？视频大语言模型中的幻觉问题综述 / Distorted or Fabricated? A Survey on Hallucination in Video LLMs

1️⃣ 一句话总结

这篇论文系统梳理了视频大语言模型在理解视频内容时，容易产生看似合理但实际与视频不符的‘幻觉’问题，分析了其类型、成因、评估方法和解决思路，为构建更可靠的视频理解系统提供了路线图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03615

arXiv 提交日期: 2026-02-03

multi-modal model evaluation llm video-language models training-free inference keyframe selection token pruning video question answering

KTV：用于高效免训练视频大语言模型的关键帧与关键令牌选择 / KTV: Keyframes and Key Tokens Selection for Efficient Training-Free Video LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为KTV的两阶段方法，通过智能选择视频中的关键画面并进一步筛选画面中的关键视觉元素，在无需额外训练的情况下，大幅提升了现有图像理解模型处理长视频的效率和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24097

arXiv 提交日期: 2025-12-30

multi-modal model training video temporal grounding video-language models preference optimization factorized learning evidence referencing

面向时序定位视频语言模型的因子化学习 / Factorized Learning for Temporally Grounded Video-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为D²VLM的新框架，通过将视频理解中的时序定位和文本生成两个任务解耦并强调其依赖关系，并引入一种新的因子化偏好优化算法，显著提升了模型对视频中事件进行精准时间定位和可靠回答的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14273

arXiv 提交日期: 2025-12-16

multi-modal video model evaluation video question answering temporal grounding reinforcement learning video-language models coarse-to-fine

Zoom-Zero：通过时序放大进行从粗到细的强化视频理解 / Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

1️⃣ 一句话总结

这篇论文提出了一个名为Zoom-Zero的新方法，它通过‘先粗略定位、再放大细节’的两步策略，并结合创新的强化学习奖励机制，有效提升了视频问答系统在定位关键片段和生成准确答案方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07550

arXiv 提交日期: 2025-10-08

video model evaluation multi-modal video-language models physical plausibility benchmark fine-tuning temporal reasoning

TRAVL：一种提升视频语言模型在物理不合理性判断能力的方案 / TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

1️⃣ 一句话总结

本文提出了一种名为TRAVL的优化方法，通过平衡训练数据和轨迹感知注意力模块来增强视频语言模型对物理不合理性的判断能力，并创建了一个名为ImplausiBench的基准测试来更严格地评估模型的物理推理表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.24002

1️⃣ 一句话总结

arXiv ID: 2604.12944

1️⃣ 一句话总结

arXiv ID: 2602.03615

1️⃣ 一句话总结

arXiv ID: 2512.24097

1️⃣ 一句话总结

arXiv ID: 2512.14273

1️⃣ 一句话总结

arXiv ID: 2510.07550

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.24002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03615 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24097 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14273 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07550 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.24002

arXiv ID: 2604.12944

arXiv ID: 2602.03615

arXiv ID: 2512.24097

arXiv ID: 2512.14273

arXiv ID: 2510.07550