arXiv最新AI论文速览速学

🔍

标签: #model safety ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations 05-28

arXiv ID: 2605.28553

arXiv 提交日期: 2026-05-27

llm model evaluation machine learning refusal detection intermediate activations linear probing jailbreak attack model safety

解码前的拒绝：检测并利用大型语言模型中间激活中的拒绝信号 / Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations

1️⃣ 一句话总结

本研究通过分析大型语言模型在生成回复前的内部神经元活动，发现模型在早期阶段就已经“决定”是否拒绝回答危险问题，并利用这一发现开发了一种更高效的攻击方法，能够显著加快生成有害指令的速度，同时减少计算资源消耗。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22519

arXiv 提交日期: 2026-03-23

llm systems natural language processing markup language prompt engineering model safety structured data interface design

LLMON：一种LLM原生标记语言，用于在LLM接口处利用结构和语义 / LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface

1️⃣ 一句话总结

这篇论文提出了一种名为LLMON的新型标记语言，它能让大语言模型更好地理解输入文本的结构和语义，从而提高模型的准确性、安全性和抗攻击能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02132

arXiv 提交日期: 2026-02-02

llm model evaluation theory refusal behavior activation steering model safety interpretability latent space

大语言模型中的拒绝行为不止于单一方向 / There Is More to Refusal in Large Language Models than a Single Direction

1️⃣ 一句话总结

这篇论文研究发现，大语言模型中的拒绝行为并非由单一的激活方向控制，而是对应多个几何上不同的方向，但这些方向都像一个共享的‘一维旋钮’，主要影响模型‘如何拒绝’而非‘是否拒绝’的核心行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10387

arXiv 提交日期: 2026-01-15

llm natural language processing model training persona control activation steering model safety jailbreak robustness post-training alignment

助手轴：定位与稳定语言模型的默认人格 / The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

1️⃣ 一句话总结

这项研究发现，大型语言模型的人格空间中存在一个主导的“助手轴”，它定义了模型默认的“乐于助人”行为模式，通过控制模型在这个轴上的激活位置，可以稳定其行为，防止其偏离正常人格并产生有害或怪异的输出。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21815

arXiv 提交日期: 2025-12-26

multi-modal model evaluation machine learning adversarial attacks vision-language models entropy model safety autoregressive generation

少数关键令牌决定成败：基于熵的视觉-语言模型攻击方法 / Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，视觉-语言模型在生成文本时，只有大约20%的关键位置（高熵令牌）对输出结果起决定性作用，通过集中攻击这些位置，就能用很小的代价让模型产生大量有害内容，从而揭示了现有模型安全机制的重大漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13450

arXiv 提交日期: 2025-09-16

llm model evaluation systems representation steering safety evaluation model safety ai alignment benchmark

导向安全：大语言模型中表示导向的系统性安全评估框架 / SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为SteeringSafety的系统性评估框架，用于全面测试大语言模型中各种表示导向方法在七个安全维度上的表现，发现不同方法的效果高度依赖于具体模型和评估角度，并揭示了这些方法可能意外影响模型的社会行为和价值观判断等安全问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28553

1️⃣ 一句话总结

arXiv ID: 2603.22519

1️⃣ 一句话总结

arXiv ID: 2602.02132

1️⃣ 一句话总结

arXiv ID: 2601.10387

1️⃣ 一句话总结

arXiv ID: 2512.21815

1️⃣ 一句话总结

arXiv ID: 2509.13450

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22519 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10387 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13450 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28553

arXiv ID: 2603.22519

arXiv ID: 2602.02132

arXiv ID: 2601.10387

arXiv ID: 2512.21815

arXiv ID: 2509.13450