arXiv ID:
2606.19212
语义对抗攻击的广义特征值几何 / Generalised Eigenvalue Geometry of Semantic Adversarial Attacks
1️⃣ 一句话总结
本文提出了一种基于广义特征值的几何框架,用于理解并量化语义等价改写如何欺骗情感分类模型:通过分析代理模型和目标模型之间的局部几何关系,作者推导出一个攻击性指标,能够预测何时微小语义变化会导致分类翻转,并为此提供了理论保证和实验验证。