arXiv最新AI论文速览速学

🔍

标签: #safety alignment ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference 03-16

arXiv ID: 2603.10091

arXiv 提交日期: 2026-03-10

llm model evaluation agents jailbreak attack safety alignment adversarial attack reasoning vulnerabilities multi-task interference

多流扰动攻击：通过并发任务干扰打破思维型大语言模型的安全对齐 / Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

1️⃣ 一句话总结

这篇论文发现，让大语言模型同时处理多个交织的任务（比如把不同问题混在一起问）可以干扰其逐步推理过程，从而成功绕过安全防护，使其生成有害内容或导致思维崩溃。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08104

arXiv 提交日期: 2026-03-09

llm model training systems safety alignment steganography malicious finetuning adversarial attack model security

隐形安全威胁：通过隐写术对大型语言模型进行恶意微调 / Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

1️⃣ 一句话总结

这篇论文揭示了一种新型的AI安全威胁：攻击者可以通过一种特殊的微调方法，让看似安全的大型语言模型学会使用“隐写术”，在用户完全察觉不到的情况下，接收隐藏的恶意指令并生成有害内容，从而绕过现有的安全防护措施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04355

arXiv 提交日期: 2026-03-04

llm model evaluation theory safety alignment jailbreaking optimal transport activation distribution refusal ablation

基于最优传输的大语言模型高效拒绝行为消除 / Efficient Refusal Ablation in LLM through Optimal Transport

1️⃣ 一句话总结

这篇论文提出了一种基于最优传输理论的新方法，通过将模型内部有害激活的整体分布转换为无害分布，来更有效地破解大语言模型的安全防护机制，并发现安全机制可能集中在网络的特定层而非全局分布。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03081

arXiv 提交日期: 2026-03-03

llm model evaluation machine learning jailbreak attack optimization adversarial attack safety alignment gradient-based attack

TAO攻击：面向大型语言模型的高级优化越狱攻击 / TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为TAO-Attack的新型优化越狱攻击方法，它通过两阶段损失函数和方向优先的令牌优化策略，有效提升了攻击大型语言模型安全防护的成功率，在某些情况下甚至能达到100%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22554

arXiv 提交日期: 2026-02-26

llm model training machine learning safety alignment multilingual sparse editing weight editing cross-lingual

通过稀疏权重编辑实现多语言安全对齐 / Multilingual Safety Alignment Via Sparse Weight Editing

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练的新方法，通过精准修改大语言模型中少数关键的‘安全神经元’，将低资源语言的有害内容映射到高资源语言的安全处理模式中，从而低成本地解决不同语言间安全防护能力不均衡的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20102

arXiv 提交日期: 2026-02-23

llm model evaluation systems safety alignment control barrier functions adversarial robustness latent space steering constraint enforcement

BarrierSteer：通过屏障转向学习实现大语言模型安全 / BarrierSteer: LLM Safety via Learning Barrier Steering

1️⃣ 一句话总结

这篇论文提出了一种名为BarrierSteer的新方法，它通过在学习到的模型内部表示空间中设置‘安全屏障’，在不改动模型本身的情况下，高效地检测并阻止大语言模型生成有害或不安全的内容，从而显著提升了模型的安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11096

arXiv 提交日期: 2026-02-11

llm model evaluation agents safety alignment jailbreak defense reasoning models inference-time intervention steering vectors

安全恢复离推理模型仅几步之遥：早期干预即可实现 / Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

1️⃣ 一句话总结

这篇论文提出了一种名为SafeThink的轻量级防御方法，它通过在推理过程中早期检测并注入简短的安全提示，就能有效降低大模型被恶意攻击的风险，同时不损害其原有的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07892

arXiv 提交日期: 2026-02-08

llm model training machine learning safety alignment continual learning orthogonal gradient projection alignment tax forgetting mitigation

将安全对齐视为持续学习：通过正交梯度投影减轻对齐代价 / Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

1️⃣ 一句话总结

这篇论文提出了一种名为OGPSA的轻量级方法，通过将安全更新限制在模型通用能力的正交方向上，有效解决了大语言模型在安全对齐过程中会损失原有通用能力（如推理和编程）的普遍问题，从而在提升安全性的同时更好地保持了模型的整体性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04294

arXiv 提交日期: 2026-02-04

llm natural language processing model evaluation jailbreak attacks prompt-based defenses few-shot learning safety alignment benchmark evaluation

少量示例如何影响基于提示的防御对抗大语言模型越狱攻击 / How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks

1️⃣ 一句话总结

这项研究发现，在基于提示的防御策略中，加入少量示例对两种主流方法有截然相反的效果：它能通过强化角色认同来提升角色导向提示的防御能力，却会因分散注意力而削弱任务导向提示的防御效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18292

arXiv 提交日期: 2026-01-26

llm agents model training safety alignment reinforcement learning self-play adversarial training multi-agent collaboration

TriPlay-RL：用于大语言模型安全对齐的三角色自博弈强化学习框架 / TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

1️⃣ 一句话总结

这篇论文提出了一个名为TriPlay-RL的强化学习框架，通过让攻击者、防御者和评估者三个角色在闭环中自动博弈与协同进化，显著提升了大语言模型的安全防御能力、攻击多样性和评估准确性，且无需人工标注。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10091

1️⃣ 一句话总结

arXiv ID: 2603.08104

1️⃣ 一句话总结

arXiv ID: 2603.04355

1️⃣ 一句话总结

arXiv ID: 2603.03081

1️⃣ 一句话总结

arXiv ID: 2602.22554

1️⃣ 一句话总结

arXiv ID: 2602.20102

1️⃣ 一句话总结

arXiv ID: 2602.11096

1️⃣ 一句话总结

arXiv ID: 2602.07892

1️⃣ 一句话总结

arXiv ID: 2602.04294

1️⃣ 一句话总结

arXiv ID: 2601.18292

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10091 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04355 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03081 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22554 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20102 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04294 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18292 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10091

arXiv ID: 2603.08104

arXiv ID: 2603.04355

arXiv ID: 2603.03081

arXiv ID: 2602.22554

arXiv ID: 2602.20102

arXiv ID: 2602.11096

arXiv ID: 2602.07892

arXiv ID: 2602.04294

arXiv ID: 2601.18292