arXiv最新AI论文速览速学

🔍

标签: #backdoor attacks ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 54 72小时内新更新论文 72h更新 54 最新: Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation 06-01

arXiv ID: 2605.28597

arXiv 提交日期: 2026-05-27

llm model evaluation security backdoor attacks alignment trigger behaviors systematic evaluation proprietary models

立场：废除“良性后门”标签——秘密对齐需要严格且系统的评估 / Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation

1️⃣ 一句话总结

本文指出，AI领域不应再将模型中被特定触发条件激活的隐藏行为视为“良性后门”，而应称之为“秘密对齐”，并强调除非经过严格和标准化评估验证，否则不应默认这些防御措施是安全的；作者通过实验揭示了这类方法在保密性、完整性和可用性上的脆弱性，呼吁社区建立可证明的安全评估标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09772

arXiv 提交日期: 2026-03-10

machine learning model evaluation theory backdoor attacks adversarial robustness representation space neural network security feature space

移除触发器而非后门：替代触发器与潜在后门 / Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

1️⃣ 一句话总结

这篇论文挑战了传统观点，指出仅移除已知的后门触发器无法真正消除AI模型中的后门，因为存在多种感知上不同的替代触发器也能激活同一个后门，因此防御措施应针对特征空间中的后门方向，而非仅仅处理输入层面的触发器。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03865

arXiv 提交日期: 2026-03-04

systems machine learning model training federated learning backdoor attacks model architecture adversarial robustness security

联邦学习中的结构感知分布式后门攻击 / Structure-Aware Distributed Backdoor Attacks in Federated Learning

1️⃣ 一句话总结

这篇论文发现，在联邦学习中，后门攻击的成功与否不仅取决于攻击策略本身，还高度依赖于模型内部结构对扰动的敏感度，并提出了两个量化指标来预测和利用这种结构依赖性，从而为设计更有效的防御方法提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10382

arXiv 提交日期: 2026-02-11

llm model evaluation theory backdoor attacks mechanistic interpretability activation patching language switching security

触发器劫持语言回路：对大语言模型中后门行为的机制分析 / Triggers Hijack Language Circuits: A Mechanistic Analysis of Backdoor Behaviors in Large Language Models

1️⃣ 一句话总结

这篇论文通过机制分析发现，大语言模型中的后门攻击并非创建独立回路，而是通过劫持模型原有的语言控制功能（如输出语言切换）来实现恶意行为，这为通过监控已知功能组件来检测和防御后门提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28597

1️⃣ 一句话总结

arXiv ID: 2603.09772

1️⃣ 一句话总结

arXiv ID: 2603.03865

1️⃣ 一句话总结

arXiv ID: 2602.10382

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28597 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09772 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03865 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10382 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28597

arXiv ID: 2603.09772

arXiv ID: 2603.03865

arXiv ID: 2602.10382