arXiv最新AI论文速览速学

🔍

标签: #security ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework 03-17

arXiv ID: 2603.14968

arXiv 提交日期: 2026-03-16

llm systems model evaluation watermark detection black-box verification third-party auditing hypothesis testing security

重新思考黑盒环境下的LLM水印检测：一种非侵入式的第三方框架 / Rethinking LLM Watermark Detection in Black-Box Settings: A Non-Intrusive Third-Party Framework

1️⃣ 一句话总结

这篇论文提出了一个名为TTP-Detect的创新框架，它允许第三方在不接触模型内部秘密或依赖服务商的情况下，独立检测大语言模型生成文本中的水印，从而解决了现有水印技术难以独立审计和监管的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11664

arXiv 提交日期: 2026-03-12

computer vision model evaluation systems backdoor detection zero-shot vision encoders security adversarial robustness

BackdoorIDS：针对预训练视觉编码器的零样本后门检测 / BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder

1️⃣ 一句话总结

这篇论文提出了一种名为BackdoorIDS的零样本检测方法，它通过观察图像在逐步遮盖过程中注意力特征的突变来有效识别预训练视觉编码器中的后门攻击样本，无需重新训练模型即可即插即用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03865

arXiv 提交日期: 2026-03-04

systems machine learning model training federated learning backdoor attacks model architecture adversarial robustness security

联邦学习中的结构感知分布式后门攻击 / Structure-Aware Distributed Backdoor Attacks in Federated Learning

1️⃣ 一句话总结

这篇论文发现，在联邦学习中，后门攻击的成功与否不仅取决于攻击策略本身，还高度依赖于模型内部结构对扰动的敏感度，并提出了两个量化指标来预测和利用这种结构依赖性，从而为设计更有效的防御方法提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02781

arXiv 提交日期: 2026-03-03

audio model evaluation machine learning speaker recognition adversarial attack generative models security query efficiency

分数识别鲍勃的声音：说话人模仿攻击 / Scores Know Bobs Voice: Speaker Impersonation Attack

1️⃣ 一句话总结

这篇论文提出了一种基于特征对齐反演的新型生成式攻击框架，通过将语音合成模型的潜在空间与说话人识别系统的判别特征空间对齐，显著提高了针对说话人识别系统的分数模仿攻击的查询效率，仅用少量查询就能实现高成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01702

arXiv 提交日期: 2026-03-02

machine learning systems security sequence-to-sequence learning cnc machining sensor security motion reconstruction lstm

加工过程监控中的安全风险：基于序列到序列学习的数控机床轴位置重建 / Security Risks in Machining Process Monitoring: Sequence-to-Sequence Learning for Reconstruction of CNC Axis Positions

1️⃣ 一句话总结

这项研究首次利用序列到序列机器学习模型，成功从工业加工监控的加速度计数据中高精度重建出数控机床的刀具运动轨迹，揭示了看似普通的设备状态监测数据可能被恶意利用、从而构成重大安全威胁的风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22246

arXiv 提交日期: 2026-02-24

multi-modal model training model evaluation backdoor defense diffusion models multimodal language models security self-purification

自净化缓解多模态扩散语言模型中的后门攻击 / Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为DiSP的自净化防御框架，它能在不依赖额外模型或干净数据的情况下，通过选择性屏蔽视觉标记和微调，有效消除多模态扩散语言模型中的后门攻击，将攻击成功率从90%以上降至5%以下。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20867

arXiv 提交日期: 2026-02-24

llm agents systems agentic skills tool use design patterns security evaluation

SoK：智能体技能——超越大语言模型智能体的工具使用 / SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

1️⃣ 一句话总结

这篇论文系统性地梳理了AI智能体‘技能’的概念、生命周期和设计模式，指出精心设计的可复用技能能显著提升智能体执行复杂任务的可靠性，但也带来了新的安全和治理挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21127

arXiv 提交日期: 2026-02-24

llm agents systems agent-mediated deception human susceptibility trust security empirical study

“你确定吗？”：一项关于LLM驱动智能体系统中人类感知脆弱性的实证研究 / "Are You Sure?": An Empirical Study of Human Perception Vulnerability in LLM-Driven Agentic Systems

1️⃣ 一句话总结

这项研究首次通过大规模实验发现，当人类用户与可能被恶意操控的AI助手（如编程或医疗助手）互动时，绝大多数人（超过90%）难以察觉其欺骗行为，且专家在特定场景下反而更容易受骗，研究为此提出了有效的防御建议。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16708

arXiv 提交日期: 2026-02-18

agents systems llm policy enforcement security multi-agent systems information flow datalog

安全智能体系统的策略编译器 / Policy Compiler for Secure Agentic Systems

1️⃣ 一句话总结

这篇论文提出了一个名为PCAS的策略编译器，它能够将复杂的授权规则（如客户服务协议或数据访问限制）自动嵌入到基于大语言模型的智能体系统中，从而在系统运行时强制遵守这些规则，大幅提升系统的安全性和合规性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15376

arXiv 提交日期: 2026-02-17

machine learning systems model evaluation malware detection similarity learning benchmark security embeddings

基于学习的相似性技术在恶意软件检测中的统一评估 / A Unified Evaluation of Learning-Based Similarity Techniques for Malware Detection

1️⃣ 一句话总结

这篇论文首次在统一的实验框架下，系统性地比较了多种基于机器学习的恶意软件相似性检测技术，发现没有一种方法能在所有方面都表现最佳，因此有效的安全分析平台需要结合多种互补的技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14968

1️⃣ 一句话总结

arXiv ID: 2603.11664

1️⃣ 一句话总结

arXiv ID: 2603.03865

1️⃣ 一句话总结

arXiv ID: 2603.02781

1️⃣ 一句话总结

arXiv ID: 2603.01702

1️⃣ 一句话总结

arXiv ID: 2602.22246

1️⃣ 一句话总结

arXiv ID: 2602.20867

1️⃣ 一句话总结

arXiv ID: 2602.21127

1️⃣ 一句话总结

arXiv ID: 2602.16708

1️⃣ 一句话总结

arXiv ID: 2602.15376

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14968 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11664 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03865 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22246 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20867 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16708 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15376 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14968

arXiv ID: 2603.11664

arXiv ID: 2603.03865

arXiv ID: 2603.02781

arXiv ID: 2603.01702

arXiv ID: 2602.22246

arXiv ID: 2602.20867

arXiv ID: 2602.21127

arXiv ID: 2602.16708

arXiv ID: 2602.15376