arXiv最新AI论文速览速学

🔍

标签: #adversarial attacks ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Generalised Eigenvalue Geometry of Semantic Adversarial Attacks 06-18

arXiv ID: 2606.19212

arXiv 提交日期: 2026-06-17

llm machine learning financial adversarial attacks robustness theory eigenvalue geometry sentiment classification paraphrase robustness

语义对抗攻击的广义特征值几何 / Generalised Eigenvalue Geometry of Semantic Adversarial Attacks

1️⃣ 一句话总结

本文提出了一种基于广义特征值的几何框架，用于理解并量化语义等价改写如何欺骗情感分类模型：通过分析代理模型和目标模型之间的局部几何关系，作者推导出一个攻击性指标，能够预测何时微小语义变化会导致分类翻转，并为此提供了理论保证和实验验证。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03344

arXiv 提交日期: 2026-06-02

llm model training model merging adversarial attacks supply chain security meta-learning robust optimization

RogueMerge：针对大语言模型合并的鲁棒且统一的攻击方法 / RogueMerge: Robust and Unified Attacks against LLM Model Merging

1️⃣ 一句话总结

本文提出了一种名为RogueMerge的攻击框架，能够有效突破现有方法在攻击大语言模型合并时的三大局限——即参数微小变化在自回归生成中被放大、攻击者无法预知合并配置导致攻击被稀释、以及攻击提示难以泛化——从而实现对多种威胁和合并算法的稳定攻击。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18919

arXiv 提交日期: 2026-05-18

machine learning model evaluation agents adversarial attacks evolutionary algorithms crossover operator mode connectivity transferability

MoCo-EA：利用对抗模式连通性实现高效进化攻击 / MoCo-EA: Exploiting Adversarial Mode Connectivity for Efficient Evolutionary Attacks

1️⃣ 一句话总结

本研究提出一种名为MoCo-EA的新型进化攻击方法，通过用连续贝塞尔曲线替换传统离散交叉操作，利用对抗样本在连续流形上的连通性，不仅显著提高了攻击成功率与迁移性，还减少了查询次数和收敛时间，挑战了“对抗样本是孤立点”的传统观念。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10176

arXiv 提交日期: 2026-05-11

llm natural language processing security sql injection prompt injection security framework adversarial attacks database security

当提示成为攻击载荷：大语言模型驱动应用中SQL注入攻击的缓解框架 / When Prompts Become Payloads: A Framework for Mitigating SQL Injection Attacks in Large Language Model-Driven Applications

1️⃣ 一句话总结

本文提出了一种多层安全框架，通过前端提示净化、行为异常检测和已知攻击签名匹配，来防止用户利用自然语言提示诱导大语言模型生成恶意SQL查询，从而有效防御新型SQL注入攻击。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26506

arXiv 提交日期: 2026-04-29

llm systems adversarial attacks peer review defense mechanism generative adversarial networks security

安全评审：保护基于大语言模型的同行评审系统免受对抗性隐藏提示攻击 / SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

1️⃣ 一句话总结

本文提出了一种由生成器和防御器组成的对抗训练框架，通过动态对抗博弈提高大语言模型评审系统抵御恶意嵌入攻击的能力，从而保障学术评审的公正性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14643

arXiv 提交日期: 2026-04-16

computer vision model evaluation systems adversarial attacks remote sensing image classification physical robustness transferability

物理诱导的大气对抗性扰动：提升遥感图像分类的迁移性与鲁棒性 / Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为FogFool的物理对抗攻击方法，它通过模拟自然雾霾来生成视觉逼真的对抗样本，不仅能有效欺骗遥感图像分类模型，还具备很强的跨模型迁移能力和抗防御鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12616

arXiv 提交日期: 2026-04-14

multi-modal agents model evaluation jailbreak attacks vision-language models adversarial attacks multi-agent cooperation semantic vulnerabilities

每张图片都讲述一个危险的故事：针对视觉语言模型的记忆增强多智能体越狱攻击 / Every Picture Tells a Dangerous Story: Memory-Augmented Multi-Agent Jailbreak Attacks on VLMs

1️⃣ 一句话总结

这篇论文提出了一个名为MemJack的新型攻击框架，它利用多智能体协作和记忆机制，通过挖掘图片本身的深层语义来生成恶意指令，从而高效地‘越狱’视觉语言模型，揭示了现有模型在语义安全上的重大漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06865

arXiv 提交日期: 2026-04-08

computer vision systems model evaluation adversarial attacks surveillance multi-object tracking visible-infrared physical robustness

针对AI监控系统的物理对抗攻击：检测、跟踪与可见光-红外规避 / Physical Adversarial Attacks on AI Surveillance Systems:Detection, Tracking, and Visible--Infrared Evasion

1️⃣ 一句话总结

这篇论文从实际监控系统的角度，综述了物理对抗攻击的研究，强调评估攻击效果时必须考虑时间持续性、多传感器融合、攻击载体真实性等系统级因素，而不能只看单帧图像的识别结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25230

arXiv 提交日期: 2026-03-26

computer vision model evaluation machine learning adversarial attacks spatial alignment transferability structured tasks semantic segmentation

面向空间结构化任务的高可迁移变换攻击的统一空间对齐框架 / A Unified Spatial Alignment Framework for Highly Transferable Transformation-Based Attacks on Spatially Structured Tasks

1️⃣ 一句话总结

这篇论文提出了一种名为SAF的空间对齐框架，解决了现有对抗性攻击方法在图像分割、目标检测等结构化任务上效果不佳的问题，其核心是通过同步变换输入图像和对应的标签来保证空间对齐，从而显著提升了攻击的可迁移性和破坏效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21654

arXiv 提交日期: 2026-03-23

llm systems model evaluation retrieval-augmented generation security vulnerabilities adversarial attacks defense mechanisms benchmark

迈向安全的检索增强生成：威胁、防御与基准测试的全面综述 / Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks

1️⃣ 一句话总结

这篇论文首次全面梳理了检索增强生成（RAG）系统的安全风险，系统性地分析了其工作流程中可能遭受的数据投毒、对抗攻击等威胁，并总结了输入输出两端的防御技术及评估标准，旨在为构建更安全可靠的RAG系统提供指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19212

1️⃣ 一句话总结

arXiv ID: 2606.03344

1️⃣ 一句话总结

arXiv ID: 2605.18919

1️⃣ 一句话总结

arXiv ID: 2605.10176

1️⃣ 一句话总结

arXiv ID: 2604.26506

1️⃣ 一句话总结

arXiv ID: 2604.14643

1️⃣ 一句话总结

arXiv ID: 2604.12616

1️⃣ 一句话总结

arXiv ID: 2604.06865

1️⃣ 一句话总结

arXiv ID: 2603.25230

1️⃣ 一句话总结

arXiv ID: 2603.21654

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19212 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18919 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10176 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26506 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12616 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06865 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21654 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19212

arXiv ID: 2606.03344

arXiv ID: 2605.18919

arXiv ID: 2605.10176

arXiv ID: 2604.26506

arXiv ID: 2604.14643

arXiv ID: 2604.12616

arXiv ID: 2604.06865

arXiv ID: 2603.25230

arXiv ID: 2603.21654