arXiv最新AI论文速览速学

🔍

标签: #jailbreak defense ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 117 72小时内新更新论文 72h更新 255 最新: TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning 05-03

arXiv ID: 2604.27861

arXiv 提交日期: 2026-04-30

llm security jailbreak defense contrastive learning decompositional attack latency optimization threat detection

双子门：通过非对称对比学习实现对不可追踪流量中分解式越狱攻击的有状态防御 / TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

1️⃣ 一句话总结

本文提出了一种名为TwinGate的轻量级防御框架，通过双编码器结构和非对称对比学习，能够在用户身份完全匿名、请求顺序混乱的真实场景中，高效识别并拦截那些将恶意问题拆分成多个无害子问题的分解式越狱攻击，同时保持极低的误报率和计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28817

arXiv 提交日期: 2026-03-28

llm model evaluation systems jailbreak defense small language models token activation safety alignment adversarial robustness

GUARD-SLM：基于令牌激活的防御方法，用于保护小型语言模型免受越狱攻击 / GUARD-SLM: Token Activation-Based Defense Against Jailbreak Attacks for Small Language Models

1️⃣ 一句话总结

这项研究发现小型语言模型容易受到恶意提示攻击，并提出了一种名为GUARD-SLM的轻量级防御方法，通过分析模型内部激活模式来实时过滤有害输入，从而保障模型安全部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15259

arXiv 提交日期: 2026-03-16

multi-modal model evaluation agents vision-language models jailbreak defense embedding smoothing adversarial robustness inference-time security

用于鲁棒视觉语言模型的方向性嵌入平滑方法 / Directional Embedding Smoothing for Robust Vision Language Models

1️⃣ 一句话总结

这项研究提出了一种名为RESTA的轻量级防御方法，通过在模型推理时向嵌入向量中注入特定方向的噪声，有效降低了多种多模态越狱攻击的成功率，从而增强了视觉语言模型的安全性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11096

arXiv 提交日期: 2026-02-11

llm model evaluation agents safety alignment jailbreak defense reasoning models inference-time intervention steering vectors

安全恢复离推理模型仅几步之遥：早期干预即可实现 / Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

1️⃣ 一句话总结

这篇论文提出了一种名为SafeThink的轻量级防御方法，它通过在推理过程中早期检测并注入简短的安全提示，就能有效降低大模型被恶意攻击的风险，同时不损害其原有的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27861

1️⃣ 一句话总结

arXiv ID: 2603.28817

1️⃣ 一句话总结

arXiv ID: 2603.15259

1️⃣ 一句话总结

arXiv ID: 2602.11096

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27861 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28817 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15259 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11096 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27861

arXiv ID: 2603.28817

arXiv ID: 2603.15259

arXiv ID: 2602.11096