arXiv ID:
2603.05256
arXiv 提交日期: 2026-03-05
Wiki-R1:通过数据和采样课程激励基于知识的视觉问答中的多模态推理 / Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum
1️⃣ 一句话总结
这篇论文提出了一种名为Wiki-R1的课程学习框架,通过生成可控难度的训练数据和智能采样策略,帮助多模态大语言模型更好地结合外部知识来回答图片相关的问题,从而在两项视觉问答基准测试上取得了新的最佳性能。