arXiv最新AI论文速览速学

🔍

标签: #adversarial attack ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference 03-16

arXiv ID: 2603.10091

arXiv 提交日期: 2026-03-10

llm model evaluation agents jailbreak attack safety alignment adversarial attack reasoning vulnerabilities multi-task interference

多流扰动攻击：通过并发任务干扰打破思维型大语言模型的安全对齐 / Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

1️⃣ 一句话总结

这篇论文发现，让大语言模型同时处理多个交织的任务（比如把不同问题混在一起问）可以干扰其逐步推理过程，从而成功绕过安全防护，使其生成有害内容或导致思维崩溃。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08104

arXiv 提交日期: 2026-03-09

llm model training systems safety alignment steganography malicious finetuning adversarial attack model security

隐形安全威胁：通过隐写术对大型语言模型进行恶意微调 / Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

1️⃣ 一句话总结

这篇论文揭示了一种新型的AI安全威胁：攻击者可以通过一种特殊的微调方法，让看似安全的大型语言模型学会使用“隐写术”，在用户完全察觉不到的情况下，接收隐藏的恶意指令并生成有害内容，从而绕过现有的安全防护措施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04913

arXiv 提交日期: 2026-03-05

robotics computer vision model evaluation adversarial attack visuomotor policy 3d object differentiable rendering robotic manipulation

超越平面贴片：通过视角一致的3D对抗物体探索视觉运动策略的脆弱性 / Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

1️⃣ 一句话总结

这篇论文提出了一种为3D物体生成视角一致性对抗纹理的方法，能有效欺骗机器人视觉控制系统，使其在动态视角和真实环境中持续做出错误决策，揭示了现有机器人策略在三维感知上的安全漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02781

arXiv 提交日期: 2026-03-03

audio model evaluation machine learning speaker recognition adversarial attack generative models security query efficiency

分数识别鲍勃的声音：说话人模仿攻击 / Scores Know Bobs Voice: Speaker Impersonation Attack

1️⃣ 一句话总结

这篇论文提出了一种基于特征对齐反演的新型生成式攻击框架，通过将语音合成模型的潜在空间与说话人识别系统的判别特征空间对齐，显著提高了针对说话人识别系统的分数模仿攻击的查询效率，仅用少量查询就能实现高成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03081

arXiv 提交日期: 2026-03-03

llm model evaluation machine learning jailbreak attack optimization adversarial attack safety alignment gradient-based attack

TAO攻击：面向大型语言模型的高级优化越狱攻击 / TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为TAO-Attack的新型优化越狱攻击方法，它通过两阶段损失函数和方向优先的令牌优化策略，有效提升了攻击大型语言模型安全防护的成功率，在某些情况下甚至能达到100%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08214

arXiv 提交日期: 2026-02-09

llm model evaluation systems adversarial attack resource exhaustion reasoning models safety evaluation recursive entropy

RECUR：一种通过递归熵引导的反事实利用与反思实现的资源耗尽攻击 / RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection

1️⃣ 一句话总结

这篇论文提出了一种名为RECUR的攻击方法，它通过构造特殊问题来干扰大型推理模型的反思过程，使其陷入过度计算，从而显著消耗系统资源，揭示了模型推理机制本身存在的安全隐患。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.12042

arXiv 提交日期: 2026-01-17

multi-modal model evaluation systems vision-language models adversarial attack token compression security vulnerability robustness

少即是多——直到它崩溃：大型视觉语言模型中视觉令牌压缩的安全隐患 / Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，为了提高效率而在大型视觉语言模型中压缩视觉令牌，会严重削弱模型的抗干扰能力，使其在面对微小、不易察觉的输入扰动时更容易出错，从而揭示了一个此前被忽视的效率与安全之间的权衡问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21008

arXiv 提交日期: 2025-12-24

llm model evaluation systems mixture-of-experts safety alignment adversarial attack sparse routing neuron analysis

GateBreaker：针对专家混合大语言模型的基于门控的对抗攻击 / GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

1️⃣ 一句话总结

这篇论文首次提出了一种名为GateBreaker的免训练、轻量级攻击方法，它通过分析并精准关闭专家混合大模型中负责安全防护的少量关键神经元，就能有效绕过多种最新模型的安全对齐机制，使其产生有害内容，揭示了这类模型独特的安全脆弱性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03771

arXiv 提交日期: 2025-12-03

llm model evaluation theory adversarial attack safety alignment representation hijacking in-context learning interpretability

上下文表示劫持 / In-Context Representation Hijacking

1️⃣ 一句话总结

这篇论文提出了一种名为‘Doublespeak’的简单攻击方法，通过在多轮对话示例中系统性地将有害词汇（如‘炸弹’）替换为无害词汇（如‘胡萝卜’），使得大语言模型在内部将无害词汇的语义理解为有害内容，从而绕过模型的安全防护机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20494

arXiv 提交日期: 2025-11-25

multi-modal llm model evaluation adversarial attack multimodal llms security model disruption transferability

对抗性混淆攻击：扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法，它通过向图像中添加微小的、人眼难以察觉的干扰，就能让多模态大语言模型（如GPT-5.1）产生混乱或自信的错误回答，从而破坏AI代理的可靠运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10091

1️⃣ 一句话总结

arXiv ID: 2603.08104

1️⃣ 一句话总结

arXiv ID: 2603.04913

1️⃣ 一句话总结

arXiv ID: 2603.02781

1️⃣ 一句话总结

arXiv ID: 2603.03081

1️⃣ 一句话总结

arXiv ID: 2602.08214

1️⃣ 一句话总结

arXiv ID: 2601.12042

1️⃣ 一句话总结

arXiv ID: 2512.21008

1️⃣ 一句话总结

arXiv ID: 2512.03771

1️⃣ 一句话总结

arXiv ID: 2511.20494

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10091 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04913 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03081 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08214 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.12042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03771 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20494 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10091

arXiv ID: 2603.08104

arXiv ID: 2603.04913

arXiv ID: 2603.02781

arXiv ID: 2603.03081

arXiv ID: 2602.08214

arXiv ID: 2601.12042

arXiv ID: 2512.21008

arXiv ID: 2512.03771

arXiv ID: 2511.20494