arXiv ID:
2606.26079
arXiv 提交日期: 2026-06-24
相同证据,不同答案:多模态大语言模型中的顺序敏感性审计 / Same Evidence, Different Answer: Auditing Order Sensitivity in Multimodal Large Language Models
1️⃣ 一句话总结
本文通过引入五维度审计方法,系统性地测试了18种主流多模态大语言模型在输入顺序改变时回答是否一致,发现所有模型都存在显著的不稳定性,并指出单纯调整提示词无法彻底解决这一问题,呼吁将“顺序翻转率”作为模型可靠性的标准评估指标。