arXiv最新AI论文速览速学

🔍

标签: #vqa ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: MSUE: Multi-Modal Soccer Understanding Expert 06-11

arXiv ID: 2606.12106

arXiv 提交日期: 2026-06-10

multi-modal sports llm soccer understanding vqa data synthesis expert system challenge solution

多模态足球理解专家 / MSUE: Multi-Modal Soccer Understanding Expert

1️⃣ 一句话总结

本文提出了一种名为MSUE的多专家问答系统，通过低成本合成多样化的足球比赛问答数据，并让大语言模型动态调配文本、图像和视频专家协同工作，最终在SoccerNet VQA挑战中取得了95%的准确率和第三名的成绩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21479

arXiv 提交日期: 2026-05-20

natural language processing computer vision benchmark vqa knowledge-grounded vision-language model image-question-answer human-curated

WikiVQABench：基于维基百科和维基数据的知识驱动视觉问答基准 / WikiVQABench: A Knowledge-Grounded Visual Question Answering Benchmark from Wikipedia and Wikidata

1️⃣ 一句话总结

本文提出了一个名为WikiVQABench的视觉问答基准数据集，它通过结合维基百科图片、文字说明和维基百科的结构化知识，精心设计了需要外部常识才能回答的题目，用来检验AI模型在理解图片时能否运用背景知识进行推理，而不仅仅是识别图像内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20190

arXiv 提交日期: 2026-04-22

machine learning benchmark computer vision vqa wildfire monitoring thermal imaging rgb-thermal fusion multimodal reasoning

野火VQA：面向空中野火监测的大规模辐射热视觉问答基准 / WildFireVQA: A Large-Scale Radiometric Thermal VQA Benchmark for Aerial Wildfire Monitoring

1️⃣ 一句话总结

本文提出了一个名为WildFireVQA的大规模视觉问答基准数据集，通过结合RGB图像和精准辐射热成像数据，专门用于评估AI模型在空中野火监测中的多模态推理能力，实验发现现有模型主要依赖RGB信息，辐射热数据虽然能提升性能但尚未被充分利用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04304

arXiv 提交日期: 2026-02-04

multi-modal model evaluation natural language processing vision-language models visual grounding attention mechanisms vqa dynamic inference

超越静态裁剪：面向复杂推理任务的层自适应视觉定位与解码增强 / Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

1️⃣ 一句话总结

这篇论文发现，大视觉语言模型在不同任务中依赖不同网络层进行视觉定位，并据此提出了一种无需训练、能自适应选择关键视觉信息层以提升复杂视觉问答准确性的新方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.11005

arXiv 提交日期: 2025-11-14

multi-modal agents model evaluation visual grounding hallucination reduction vqa image captioning utilization metric

借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts

1️⃣ 一句话总结

这项研究提出了一种新方法，通过量化模型对图像信息的依赖程度并引入视觉专家反馈，有效减少了大型视觉语言模型在回答时凭空捏造内容的问题，从而提高了答案的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12106

1️⃣ 一句话总结

arXiv ID: 2605.21479

1️⃣ 一句话总结

arXiv ID: 2604.20190

1️⃣ 一句话总结

arXiv ID: 2602.04304

1️⃣ 一句话总结

arXiv ID: 2511.11005

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20190 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04304 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.11005 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12106

arXiv ID: 2605.21479

arXiv ID: 2604.20190

arXiv ID: 2602.04304

arXiv ID: 2511.11005