arXiv ID:
2606.18553
基于层级多模态检索的知识增强新闻图像描述生成 / Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning
1️⃣ 一句话总结
本文提出了一种新的图像描述生成框架,通过层级化检索文章结构(如标题、正文和图像位置)并融合视觉与文本信息,帮助AI在生成新闻图片描述时补充图中看不到的深层背景知识,从而产出更丰富、更具上下文感的说明文字。