arXiv最新AI论文速览速学

🔍

标签: #image captioning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models 06-22

arXiv ID: 2606.18553

arXiv 提交日期: 2026-06-17

multi-modal machine learning aigc image captioning retrieval-augmented hierarchical retrieval knowledge grounding vlm

基于层级多模态检索的知识增强新闻图像描述生成 / Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

1️⃣ 一句话总结

本文提出了一种新的图像描述生成框架，通过层级化检索文章结构（如标题、正文和图像位置）并融合视觉与文本信息，帮助AI在生成新闻图片描述时补充图中看不到的深层背景知识，从而产出更丰富、更具上下文感的说明文字。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.17020

arXiv 提交日期: 2026-06-15

multi-modal machine learning remote sensing rgb-infrared dataset vision-language model dual-modal learning image captioning representation learning

FusionRS：面向双模态视觉-语言基础模型的大规模红外地表遥感数据集 / FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models

1️⃣ 一句话总结

本文构建了首个大规模RGB-红外配对遥感图文数据集FusionRS，并基于此训练了能同时理解可见光和红外图像的双模态视觉-语言模型，显著提升了红外图像的理解与检索能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05623

arXiv 提交日期: 2026-04-07

multi-modal benchmark model evaluation hallucination detection image captioning localization multimodal llms evaluation benchmark

DetailVerifyBench：长图像描述中密集幻觉定位的基准 / DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions

1️⃣ 一句话总结

这篇论文提出了一个名为DetailVerifyBench的新基准测试，专门用于评估AI模型在长达数百字的详细图像描述中，精准找出并定位具体错误词语或片段的能力，以解决当前多模态大模型生成长描述时内容不可靠的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15253

arXiv 提交日期: 2026-03-16

model evaluation benchmark multi-modal hallucination detection vision-language models image captioning dataset curation evaluation benchmark

HalDec-Bench：图像描述任务中幻觉检测器的基准测试 / HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning

1️⃣ 一句话总结

这篇论文提出了一个名为HalDec-Bench的新基准测试，用于系统评估视觉语言模型在检测图像描述中‘幻觉’（即描述与图像内容不符的错误）的能力，并发现现有检测器倾向于盲目相信描述开头的句子，同时指出可以利用强大的视觉语言模型作为过滤器来有效提升训练数据的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21025

arXiv 提交日期: 2025-11-26

model evaluation multi-modal natural language processing image captioning benchmark utility evaluation multimodal llm qa-based assessment

CaptionQA：你的图像描述是否和图像本身一样有用？ / CaptionQA: Is Your Caption as Useful as the Image Itself?

1️⃣ 一句话总结

本文提出了一个名为CaptionQA的新基准，通过量化图像描述（caption）在多大程度上能替代原始图像以支持下游任务（如检索、推荐、具身AI等），来评估描述的质量，揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.11005

arXiv 提交日期: 2025-11-14

multi-modal agents model evaluation visual grounding hallucination reduction vqa image captioning utilization metric

借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts

1️⃣ 一句话总结

这项研究提出了一种新方法，通过量化模型对图像信息的依赖程度并引入视觉专家反馈，有效减少了大型视觉语言模型在回答时凭空捏造内容的问题，从而提高了答案的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18553

1️⃣ 一句话总结

arXiv ID: 2606.17020

1️⃣ 一句话总结

arXiv ID: 2604.05623

1️⃣ 一句话总结

arXiv ID: 2603.15253

1️⃣ 一句话总结

arXiv ID: 2511.21025

1️⃣ 一句话总结

arXiv ID: 2511.11005

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.17020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15253 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.11005 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18553

arXiv ID: 2606.17020

arXiv ID: 2604.05623

arXiv ID: 2603.15253

arXiv ID: 2511.21025

arXiv ID: 2511.11005