arXiv最新AI论文速览速学

🔍

标签: #large vision-language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 42 72小时内新更新论文 72h更新 138 最新: HarmVideoBench: Benchmarking Harmful Video Understanding in Large Multimodal Models 06-27

arXiv ID: 2606.27187

arXiv 提交日期: 2026-06-25

multi-modal benchmark model evaluation harmful video understanding large vision-language models diagnostic benchmark reasoning boundaries content moderation

HarmVideoBench：大型多模态模型中有害视频理解的基准测试 / HarmVideoBench: Benchmarking Harmful Video Understanding in Large Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一个叫HarmVideoBench的新型基准测试，它包含1379个视频和4137道多选题，从三个层次（表层证据、片段内含义、跨片段推理）来全面检测AI模型对有害视频的理解能力，并设计了一种能按需检索上下文的方法，将模型准确率从61.7%提升到了84.4%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05601

arXiv 提交日期: 2026-04-07

llm multi-modal model training visual token pruning efficient inference large vision-language models token selection model acceleration

ID-选择：基于重要性-多样性的视觉令牌选择方法，用于高效的大型视觉语言模型推理 / ID-Selection: Importance-Diversity Based Visual Token Selection for Efficient LVLM Inference

1️⃣ 一句话总结

这篇论文提出了一种名为ID-Selection的新方法，它通过结合令牌的重要性和多样性，在高效压缩视觉信息的同时，大幅提升了大型视觉语言模型的推理速度，并保持了很高的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00455

arXiv 提交日期: 2026-04-01

natural language processing computer vision multi-modal object hallucination visual grounding training-free method large vision-language models inference optimization

首词对数增强：缓解大型视觉语言模型中物体幻觉的视觉接地方法 / First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练的简单方法，通过增强生成过程中首个词的重要性来持续利用视觉信息，从而有效减少AI模型在描述图片时凭空捏造物体的错误。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.27187

1️⃣ 一句话总结

arXiv ID: 2604.05601

1️⃣ 一句话总结

arXiv ID: 2604.00455

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.27187 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05601 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00455 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.27187

arXiv ID: 2604.05601

arXiv ID: 2604.00455