arXiv最新AI论文速览速学

🔍

标签: #refusal behavior ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks 05-30

arXiv ID: 2605.28013

arXiv 提交日期: 2026-05-27

multi-modal benchmark model evaluation multimodal safety cultural risks korean jailbreak attacks refusal behavior

KSAFE-MM：一种通过本地化情境构建的韩国文化风险多模态安全基准 / KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks

1️⃣ 一句话总结

该论文提出了一个名为KSAFE-MM的多模态安全评估基准，专门针对韩国文化背景，通过将通用的安全测试问题“本地化”为包含韩国语言、视觉和文化元素的多模态样本，揭示了当前主流多模态大模型在面对文化特定攻击时比面对通用攻击更脆弱，且存在安全性与过度拒绝之间的权衡问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10764

arXiv 提交日期: 2026-05-11

machine learning multi-modal llm jailbreak attack entropy maximization transferability refusal behavior safety

打破刹车，而非车轮：通过熵最大化的非定向越狱攻击 / Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization

1️⃣ 一句话总结

本文提出一种轻量级的非定向越狱方法UJEM-KL，通过最大化模型拒绝回答时刻的高熵标记（相当于“刹车”）来绕过安全限制，同时保持其他部分输出质量，从而在多个视觉语言模型上显著提升跨模型攻击的迁移性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08524

arXiv 提交日期: 2026-04-09

llm theory model evaluation steering vectors mechanistic interpretability activation patching refusal behavior circuit analysis

什么驱动了表征转向？关于引导拒绝行为的机制性案例研究 / What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal

1️⃣ 一句话总结

这篇论文通过研究如何用“转向向量”改变大语言模型的拒绝行为，揭示了这种技术主要通过影响模型内部注意力机制中的特定电路来发挥作用，并且发现这些向量可以被大幅精简而保持效果，为理解模型对齐技术提供了清晰的内部机制解释。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14723

arXiv 提交日期: 2026-03-16

llm model training model evaluation safety fine-tuning lora harmbench refusal behavior instruction tuning

超越信条：一种非身份安全条件——低数据LoRA微调中身份框架的强有力实证替代方案 / Beyond Creed: A Non-Identity Safety Condition A Strong Empirical Alternative to Identity Framing in Low-Data LoRA Fine-Tuning

1️⃣ 一句话总结

这篇论文通过实验发现，在提升AI模型安全性的微调过程中，使用不强调AI身份的普通规则说明，比刻意强调AI身份（如“我是一个无害的AI”）的“信条式”框架效果更好，且不影响模型的其他能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02132

arXiv 提交日期: 2026-02-02

llm model evaluation theory refusal behavior activation steering model safety interpretability latent space

大语言模型中的拒绝行为不止于单一方向 / There Is More to Refusal in Large Language Models than a Single Direction

1️⃣ 一句话总结

这篇论文研究发现，大语言模型中的拒绝行为并非由单一的激活方向控制，而是对应多个几何上不同的方向，但这些方向都像一个共享的‘一维旋钮’，主要影响模型‘如何拒绝’而非‘是否拒绝’的核心行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13655

arXiv 提交日期: 2025-12-15

llm model training model evaluation safety alignment adversarial testing capability preservation refusal behavior model ablation

大语言模型能力消除方法比较分析：一项跨架构评估 / Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation

1️⃣ 一句话总结

这篇论文评估了四种用于移除大语言模型安全拒绝能力的工具在不同模型上的效果，发现数学推理能力受这些工具影响最大，为研究者选择合适工具提供了依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28013

1️⃣ 一句话总结

arXiv ID: 2605.10764

1️⃣ 一句话总结

arXiv ID: 2604.08524

1️⃣ 一句话总结

arXiv ID: 2603.14723

1️⃣ 一句话总结

arXiv ID: 2602.02132

1️⃣ 一句话总结

arXiv ID: 2512.13655

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10764 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08524 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14723 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13655 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28013

arXiv ID: 2605.10764

arXiv ID: 2604.08524

arXiv ID: 2603.14723

arXiv ID: 2602.02132

arXiv ID: 2512.13655