arXiv最新AI论文速览速学

🔍

标签: #jailbreak attack ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack 06-06

arXiv ID: 2606.05614

arXiv 提交日期: 2026-06-04

llm model evaluation safety awareness jailbreak attack posterior attack safety paradox alignment vulnerabilities

安全悖论：增强的安全意识如何使大语言模型更容易受到后验攻击 / Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack

1️⃣ 一句话总结

这篇论文发现了一个矛盾现象：越是被训练得“懂安全”的大语言模型，反而越容易被一种名为“后验攻击”的简单方法骗过，因为它能精准生成自己原本会拒绝的有害内容，从而揭示了当前安全对齐策略的潜在缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28553

arXiv 提交日期: 2026-05-27

llm model evaluation machine learning refusal detection intermediate activations linear probing jailbreak attack model safety

解码前的拒绝：检测并利用大型语言模型中间激活中的拒绝信号 / Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations

1️⃣ 一句话总结

本研究通过分析大型语言模型在生成回复前的内部神经元活动，发现模型在早期阶段就已经“决定”是否拒绝回答危险问题，并利用这一发现开发了一种更高效的攻击方法，能够显著加快生成有害指令的速度，同时减少计算资源消耗。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19485

arXiv 提交日期: 2026-05-19

llm reinforcement learning model evaluation jailbreak attack large reasoning models attention mechanism reward design attack success rate

基于注意力引导奖励的强化学习对大推理模型的越狱攻击 / Attention-Guided Reward for Reinforcement Learning-based Jailbreak against Large Reasoning Models

1️⃣ 一句话总结

本文发现对大推理模型的越狱攻击成功率与其注意力模式密切相关，并据此提出一种利用强化学习和注意力信号设计奖励函数的攻击方法，结合多样说服策略，显著提升了攻击的效果、效率和可迁移性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17971

arXiv 提交日期: 2026-05-18

llm security jailbreak attack attention mechanism safety alignment obfuscation sampling black-box attack

巴别塔：通过混淆分布优化采样突破安全注意力机制 / Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

1️⃣ 一句话总结

本文发现大型语言模型的安全机制仅依赖少量稀疏分布的注意力头，存在监控盲区，据此提出一种名为Babel的黑盒攻击方法，通过迭代优化文本混淆分布，能够在仅需约40次查询的情况下，将GPT-4o和Claude-3-5-haiku等前沿模型的攻击成功率提升至80%左右，显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10764

arXiv 提交日期: 2026-05-11

machine learning multi-modal llm jailbreak attack entropy maximization transferability refusal behavior safety

打破刹车，而非车轮：通过熵最大化的非定向越狱攻击 / Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization

1️⃣ 一句话总结

本文提出一种轻量级的非定向越狱方法UJEM-KL，通过最大化模型拒绝回答时刻的高熵标记（相当于“刹车”）来绕过安全限制，同时保持其他部分输出质量，从而在多个视觉语言模型上显著提升跨模型攻击的迁移性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19274

arXiv 提交日期: 2026-04-21

llm model evaluation jailbreak attack benchmark collaborative writing safety alignment

HarDBench：面向草稿协作越狱攻击的基准测试——用于安全的人机协同写作 / HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing

1️⃣ 一句话总结

本文针对用户利用大语言模型协作写作时，通过提供不完整草稿诱导模型生成危险内容的越狱攻击，提出了一个名为HarDBench的系统性基准测试，并开发了一种偏好优化方法，在保障安全性的同时维持模型正常的写作辅助能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10091

arXiv 提交日期: 2026-03-10

llm model evaluation agents jailbreak attack safety alignment adversarial attack reasoning vulnerabilities multi-task interference

多流扰动攻击：通过并发任务干扰打破思维型大语言模型的安全对齐 / Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

1️⃣ 一句话总结

这篇论文发现，让大语言模型同时处理多个交织的任务（比如把不同问题混在一起问）可以干扰其逐步推理过程，从而成功绕过安全防护，使其生成有害内容或导致思维崩溃。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03081

arXiv 提交日期: 2026-03-03

llm model evaluation machine learning jailbreak attack optimization adversarial attack safety alignment gradient-based attack

TAO攻击：面向大型语言模型的高级优化越狱攻击 / TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为TAO-Attack的新型优化越狱攻击方法，它通过两阶段损失函数和方向优先的令牌优化策略，有效提升了攻击大型语言模型安全防护的成功率，在某些情况下甚至能达到100%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.05614

1️⃣ 一句话总结

arXiv ID: 2605.28553

1️⃣ 一句话总结

arXiv ID: 2605.19485

1️⃣ 一句话总结

arXiv ID: 2605.17971

1️⃣ 一句话总结

arXiv ID: 2605.10764

1️⃣ 一句话总结

arXiv ID: 2604.19274

1️⃣ 一句话总结

arXiv ID: 2603.10091

1️⃣ 一句话总结

arXiv ID: 2603.03081

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.05614 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19485 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17971 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10764 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19274 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10091 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03081 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.05614

arXiv ID: 2605.28553

arXiv ID: 2605.19485

arXiv ID: 2605.17971

arXiv ID: 2605.10764

arXiv ID: 2604.19274

arXiv ID: 2603.10091

arXiv ID: 2603.03081