arXiv ID:
2601.12042
少即是多——直到它崩溃:大型视觉语言模型中视觉令牌压缩的安全隐患 / Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
1️⃣ 一句话总结
这篇论文发现,为了提高效率而在大型视觉语言模型中压缩视觉令牌,会严重削弱模型的抗干扰能力,使其在面对微小、不易察觉的输入扰动时更容易出错,从而揭示了一个此前被忽视的效率与安全之间的权衡问题。