arXiv ID:
2604.27861
arXiv 提交日期: 2026-04-30
双子门:通过非对称对比学习实现对不可追踪流量中分解式越狱攻击的有状态防御 / TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
1️⃣ 一句话总结
本文提出了一种名为TwinGate的轻量级防御框架,通过双编码器结构和非对称对比学习,能够在用户身份完全匿名、请求顺序混乱的真实场景中,高效识别并拦截那些将恶意问题拆分成多个无害子问题的分解式越狱攻击,同时保持极低的误报率和计算开销。