arXiv最新AI论文速览速学

🔍

标签: #video captioning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models 06-04

arXiv ID: 2606.04773

arXiv 提交日期: 2026-06-03

benchmark model evaluation multi-modal human motion understanding vision-language models question answering video captioning error correction

NextMotionQA：使用视觉-语言模型基准测试与评判人体运动理解 / NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models

1️⃣ 一句话总结

本文提出了 NextMotionQA 基准测试，通过多项选择题、视频描述和细粒度纠错三种任务，系统评估视觉-语言模型对人体运动的理解能力，并揭示了模型在简单任务上表现尚可、但在精细部件级别判断上严重失效的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21411

arXiv 提交日期: 2026-05-20

multi-modal aigc video video captioning tone control road events controllable generation evaluation suite

RoadTones：从道路事件视频生成语气可控的文本 / RoadTones: Tone Controllable Text Generation from Road Event Videos

1️⃣ 一句话总结

本文提出了一套包含数据集、模型和评估方法的完整方案，使AI能够根据道路事件视频生成语气可调节的文本描述，例如“紧急”或“中性”语气，从而让视频描述不仅准确，还能根据沟通需求调整表达方式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10611

arXiv 提交日期: 2026-01-15

multi-modal video model training vision-language models video grounding open-source data object tracking video captioning

Molmo2：具备视频理解与定位能力的开源视觉语言模型及其权重与数据集 / Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

1️⃣ 一句话总结

这篇论文提出了一个名为Molmo2的开源视觉语言模型家族，它不仅通过一系列全新的开源数据集和创新的训练方法在视频理解任务上达到了开源模型的领先水平，还首次在开源模型中实现了对视频内容的像素级精确定位能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19535

arXiv 提交日期: 2025-12-22

multi-modal model training natural language processing vision-language models cross-attention efficient fusion image understanding video captioning

CASA：通过自注意力实现交叉注意力，用于高效的视觉-语言融合 / CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

1️⃣ 一句话总结

这篇论文提出了一种名为CASA的新方法，它通过巧妙地在交叉注意力层中引入文本自注意力机制，显著提升了视觉-语言模型在处理图像细节时的性能，同时保持了模型在处理长视频或对话时的高效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04356

arXiv 提交日期: 2025-12-04

multi-modal model training model evaluation hallucination mitigation contrastive learning video captioning multimodal llms faithful generation

通过自增强对比对齐缓解多模态大语言模型中的物体与动作幻觉 / Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

1️⃣ 一句话总结

这篇论文提出了一个名为SANTA的自增强对比对齐框架，通过识别并利用模型自身可能产生的错误描述来构建对比样本，从而有效减少多模态大模型在视频描述任务中凭空捏造物体和动作的幻觉问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04773

1️⃣ 一句话总结

arXiv ID: 2605.21411

1️⃣ 一句话总结

arXiv ID: 2601.10611

1️⃣ 一句话总结

arXiv ID: 2512.19535

1️⃣ 一句话总结

arXiv ID: 2512.04356

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04773 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21411 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10611 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19535 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04356 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04773

arXiv ID: 2605.21411

arXiv ID: 2601.10611

arXiv ID: 2512.19535

arXiv ID: 2512.04356