🤖 系统
11-30 17:51
📄 论文总结
基准设计者应“在测试集上训练”以暴露可利用的非视觉捷径 / Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
1️⃣ 一句话总结
这篇论文提出了一种新的基准测试设计方法,要求设计者主动在测试集上训练模型来发现并消除非视觉捷径,从而确保多模态大模型评估更依赖视觉理解而非数据偏见。