arXiv ID:
2603.19092
arXiv 提交日期: 2026-03-19
SAVeS:通过语义线索引导视觉语言模型的安全判断 / SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues
1️⃣ 一句话总结
这篇论文研究发现,视觉语言模型的安全判断高度依赖于简单的语义线索而非对视觉内容的深入理解,并提出了一个评估基准来揭示和利用这一潜在的系统脆弱性。