arXiv ID:
2601.06165
arXiv 提交日期: 2026-01-07
用户未言明之事:不明确的查询限制了视觉语言模型 / What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
1️⃣ 一句话总结
这篇论文指出,用户真实的图像提问往往信息不完整,这导致当前顶尖的视觉语言模型表现不佳,而将问题描述得更清晰能显著提升模型回答的准确性,揭示了现有模型评估与现实应用之间存在巨大差距。