arXiv最新AI论文速览速学

🔍

标签: #data poisoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 150 最新: Two Sides of the Same Coin: Learning the Backdoor to Remove the Backdoor 07-08

arXiv ID: 2607.05748

arXiv 提交日期: 2026-07-07

machine learning model training backdoor attack defense data poisoning anti-backdoor learning

一枚硬币的两面：学习后门以移除后门 / Two Sides of the Same Coin: Learning the Backdoor to Remove the Backdoor

1️⃣ 一句话总结

本文提出一种名为HARVEY的新型防御方法，通过主动学习并识别模型中的后门样本（即被恶意修改的数据），而不是像以往方法那样试图识别正常样本，从而更准确、更彻底地清除后门攻击，且几乎不损害模型在正常任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.29841

arXiv 提交日期: 2026-06-29

machine learning theory continual learning data poisoning adversarial defense theoretical framework convergence

针对数据投毒攻击的持续学习理论 / Theory of Continual Learning Against Data Poisoning Attacks

1️⃣ 一句话总结

本文通过将攻击与防御的互动建模为零和博弈，揭示了持续学习在面对数据投毒攻击时的极限防御能力，并提出了两种可行防御策略：任务间验证机制和特征敏感性最小化方法，以检测攻击并加快模型收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28074

arXiv 提交日期: 2026-05-27

llm security systems retrieval-augmented generation adversarial attack data poisoning security evaluation

静默检索：通过语义保持的对抗性数据投毒劫持检索增强生成系统 / SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning

1️⃣ 一句话总结

这篇论文提出了一种名为SilentRetrieval的两阶段攻击方法，通过注入看似正常但精心设计的文档来劫持检索增强生成（RAG）系统，使模型在回答问题时被诱导输出错误信息，实验证明该攻击在多种标准数据集和模型上成功率很高，且难以被常规防御完全阻止。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19147

arXiv 提交日期: 2026-05-18

llm security defense data poisoning backdoor attack benign rewriting defense mechanism safety

友善重写：通过改写实现良性投影以防御大语言模型数据投毒攻击 / Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks

1️⃣ 一句话总结

本文提出一种基于大语言模型“开放式良性改写”（OBBR）的防御方法，通过将训练数据重写为良性内容，有效消除后门攻击和恶意样本，无需牺牲模型性能，并且比现有防御方法平均提升51%的安全效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2607.05748

1️⃣ 一句话总结

arXiv ID: 2606.29841

1️⃣ 一句话总结

arXiv ID: 2605.28074

1️⃣ 一句话总结

arXiv ID: 2605.19147

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2607.05748 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.29841 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28074 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19147 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2607.05748

arXiv ID: 2606.29841

arXiv ID: 2605.28074

arXiv ID: 2605.19147