arXiv最新AI论文速览速学

🔍

标签: #transferability ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs 05-25

arXiv ID: 2605.21541

arXiv 提交日期: 2026-05-20

machine learning multi-modal adversarial attack transferability frequency domain multimodal llm regularization

面向闭源多模态大模型可迁移攻击的频域正则化对抗对齐方法 / Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs

1️⃣ 一句话总结

本文提出一种名为FRA-Attack的攻击方法，通过在频域中对图像扰动进行双重正则化（高通滤波对齐视觉关注区域、低通滤波去除模型特有噪声），使得在开源模型上生成的攻击样本能更有效地欺骗GPT、Claude等闭源多模态大模型，并取得了当前最好的跨模型迁移攻击效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19321

arXiv 提交日期: 2026-05-19

llm model evaluation jailbreak attacks safety guard transferability speculative inference pre-model safeguard

探索并开发基于草稿模型的预模型安全防护机制 / Exploring and Developing a Pre-Model Safeguard with Draft Models

1️⃣ 一句话总结

本文提出了一种新型的安全防护方法，利用小型语言模型作为‘草稿生成器’提前模拟大型模型对恶意提示的反应，从而在不完全运行大型模型的情况下检测和阻止越狱攻击，既降低了判断错误率又节省了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18919

arXiv 提交日期: 2026-05-18

machine learning model evaluation agents adversarial attacks evolutionary algorithms crossover operator mode connectivity transferability

MoCo-EA：利用对抗模式连通性实现高效进化攻击 / MoCo-EA: Exploiting Adversarial Mode Connectivity for Efficient Evolutionary Attacks

1️⃣ 一句话总结

本研究提出一种名为MoCo-EA的新型进化攻击方法，通过用连续贝塞尔曲线替换传统离散交叉操作，利用对抗样本在连续流形上的连通性，不仅显著提高了攻击成功率与迁移性，还减少了查询次数和收敛时间，挑战了“对抗样本是孤立点”的传统观念。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10764

arXiv 提交日期: 2026-05-11

machine learning multi-modal llm jailbreak attack entropy maximization transferability refusal behavior safety

打破刹车，而非车轮：通过熵最大化的非定向越狱攻击 / Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization

1️⃣ 一句话总结

本文提出一种轻量级的非定向越狱方法UJEM-KL，通过最大化模型拒绝回答时刻的高熵标记（相当于“刹车”）来绕过安全限制，同时保持其他部分输出质量，从而在多个视觉语言模型上显著提升跨模型攻击的迁移性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.04572

arXiv 提交日期: 2026-05-06

llm machine learning model training safety alignment fine-tuning parameter dynamics risk quantification transferability

从参数动态到风险评分：量化大语言模型微调中的样本级安全退化 / From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning

1️⃣ 一句话总结

本文通过分析大语言模型微调过程中参数的动态变化，发现即使是少量良性样本也可能使模型参数向危险方向偏移，从而破坏其安全对齐，并据此提出一种名为SQSD的方法，能够为每个训练样本计算连续的风险评分，量化其对模型安全退化的贡献。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14643

arXiv 提交日期: 2026-04-16

computer vision model evaluation systems adversarial attacks remote sensing image classification physical robustness transferability

物理诱导的大气对抗性扰动：提升遥感图像分类的迁移性与鲁棒性 / Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为FogFool的物理对抗攻击方法，它通过模拟自然雾霾来生成视觉逼真的对抗样本，不仅能有效欺骗遥感图像分类模型，还具备很强的跨模型迁移能力和抗防御鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05993

arXiv 提交日期: 2026-04-07

machine learning theory model evaluation data valuation bayesian inference distribution shift transferability data streams

使用广义贝叶斯推断进行数据分布价值评估 / Data Distribution Valuation Using Generalized Bayesian Inference

1️⃣ 一句话总结

这篇论文提出了一个名为‘广义贝叶斯估值’的新框架，它利用广义贝叶斯推断来量化不同数据分布样本的价值，并能统一解决诸如评估数据标注者质量和优化数据增强等实际问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25230

arXiv 提交日期: 2026-03-26

computer vision model evaluation machine learning adversarial attacks spatial alignment transferability structured tasks semantic segmentation

面向空间结构化任务的高可迁移变换攻击的统一空间对齐框架 / A Unified Spatial Alignment Framework for Highly Transferable Transformation-Based Attacks on Spatially Structured Tasks

1️⃣ 一句话总结

这篇论文提出了一种名为SAF的空间对齐框架，解决了现有对抗性攻击方法在图像分割、目标检测等结构化任务上效果不佳的问题，其核心是通过同步变换输入图像和对应的标签来保证空间对齐，从而显著提升了攻击的可迁移性和破坏效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02908

arXiv 提交日期: 2026-03-03

llm model training model evaluation transferability sparse autoencoder interpretability fine-tuning feature analysis

SAE作为水晶球：无需训练，利用可解释特征预测大语言模型的跨领域可迁移性 / SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

1️⃣ 一句话总结

这篇论文提出了一种名为STS的新方法，它利用稀疏自编码器分析大语言模型内部特征的变化，能够在模型进行下游任务微调之前，就准确预测其在不同领域应用中的表现好坏，为模型优化提供了可解释的指导工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20494

arXiv 提交日期: 2025-11-25

multi-modal llm model evaluation adversarial attack multimodal llms security model disruption transferability

对抗性混淆攻击：扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法，它通过向图像中添加微小的、人眼难以察觉的干扰，就能让多模态大语言模型（如GPT-5.1）产生混乱或自信的错误回答，从而破坏AI代理的可靠运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.21541

1️⃣ 一句话总结

arXiv ID: 2605.19321

1️⃣ 一句话总结

arXiv ID: 2605.18919

1️⃣ 一句话总结

arXiv ID: 2605.10764

1️⃣ 一句话总结

arXiv ID: 2605.04572

1️⃣ 一句话总结

arXiv ID: 2604.14643

1️⃣ 一句话总结

arXiv ID: 2604.05993

1️⃣ 一句话总结

arXiv ID: 2603.25230

1️⃣ 一句话总结

arXiv ID: 2603.02908

1️⃣ 一句话总结

arXiv ID: 2511.20494

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.21541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19321 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18919 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10764 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.04572 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05993 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02908 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20494 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.21541

arXiv ID: 2605.19321

arXiv ID: 2605.18919

arXiv ID: 2605.10764

arXiv ID: 2605.04572

arXiv ID: 2604.14643

arXiv ID: 2604.05993

arXiv ID: 2603.25230

arXiv ID: 2603.02908

arXiv ID: 2511.20494