arXiv ID:
2605.27932
arXiv 提交日期: 2026-05-27
当“看图思考”遇上安全:是什么决定了多模态越狱鲁棒性? / When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?
1️⃣ 一句话总结
本文研究了大型视觉语言模型在不同“看图思考”流程下的安全性,发现显式调用图像工具能显著降低被恶意诱导攻击的成功率,并揭示了其背后的机制——这种调用方式会在模型内部表征中产生一种安全相关的偏移,而非单纯依赖图像内容或文字记录。