arXiv ID:
2606.08959
arXiv 提交日期: 2026-06-08
ChinaHeritaQA:面向中国世界遗产的文化视觉问答数据集 / ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China
1️⃣ 一句话总结
该论文构建了一个包含中国世界遗产图像和双语问答对的多模态基准数据集,评估了视觉语言模型在文化推理上的能力,发现现有模型虽擅长视觉识别,但在理解历史、朝代等深层文化知识方面仍有明显不足。