arXiv ID:
2606.11599
何时你的大语言模型可被操控? / When is Your LLM Steerable?
1️⃣ 一句话总结
本文提出一种通过分析模型生成早期隐藏状态来预测激活操控是否成功的方法,从而在不完成完整生成过程的情况下高效调整操控强度,大幅提升大语言模型行为控制的成功率。
何时你的大语言模型可被操控? / When is Your LLM Steerable?
本文提出一种通过分析模型生成早期隐藏状态来预测激活操控是否成功的方法,从而在不完成完整生成过程的情况下高效调整操控强度,大幅提升大语言模型行为控制的成功率。
从奖励黑客激活到智能体风险状态:大语言模型智能体中的上下文校准机制监控 / From Reward-Hack Activations to Agentic Risk States: Context-Calibrated Mechanistic Monitoring in LLM Agents
本研究提出一种结合智能体内部状态和外部环境上下文的监控方法,通过分析奖励黑客激活、熵和决策上下文特征,更准确地预测大语言模型智能体何时会将潜在风险转化为实际有害行为。
论主题匹配对比基线在多方向拒绝消除中的失效 / On the Failure of Topic-Matched Contrast Baselines in Multi-Directional Refusal Abliteration
这篇论文发现,在消除AI模型拒绝回答有害指令的能力时,使用与有害主题相匹配的‘无害’指令作为对比基线,反而无法提取出有效的‘拒绝方向’,导致消除失败,揭示了对比基线设计的关键性。
C-ΔΘ:用于选择性拒绝的电路限制权重算术 / $C$-$ΔΘ$: Circuit-Restricted Weight Arithmetic for Selective Refusal
这篇论文提出了一种名为C-ΔΘ的新方法,它通过离线修改大语言模型内部一个极小的特定电路(通常涉及不到5%的参数),就能让模型学会在特定情况下安全地拒绝回答,而无需在每次使用时都进行额外的计算干预,从而降低了部署成本和复杂性。
大语言模型中的拒绝行为不止于单一方向 / There Is More to Refusal in Large Language Models than a Single Direction
这篇论文研究发现,大语言模型中的拒绝行为并非由单一的激活方向控制,而是对应多个几何上不同的方向,但这些方向都像一个共享的‘一维旋钮’,主要影响模型‘如何拒绝’而非‘是否拒绝’的核心行为。
S3-CoT:通过自采样简明推理实现高效思维链大语言模型 / S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs
这篇论文提出了一种让大语言模型学会‘快速思考’的新方法,它通过引导模型自己生成简洁的推理步骤来学习,无需人工标注数据,从而在数学和医学任务上更高效、更准确地解决问题。
识别与迁移推理关键神经元:通过激活引导提升大语言模型推理可靠性 / Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering
这篇论文提出了一种名为AdaRAS的轻量级方法,通过识别并微调大语言模型中少数与推理正确性高度相关的‘关键神经元’的激活状态,就能在无需额外训练或复杂采样的前提下,显著提升模型在数学和编程等复杂任务上的推理准确率。
选择性导向:通过判别性层选择实现规范保持的控制 / Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection
这篇论文提出了一种名为‘选择性导向’的新方法,通过数学上严格的规范保持旋转和智能选择关键网络层,在大语言模型推理时更稳定、高效地控制其行为,使其既能有效抵御恶意攻击,又几乎不影响模型的正常能力。
助手轴:定位与稳定语言模型的默认人格 / The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
这项研究发现,大型语言模型的人格空间中存在一个主导的“助手轴”,它定义了模型默认的“乐于助人”行为模式,通过控制模型在这个轴上的激活位置,可以稳定其行为,防止其偏离正常人格并产生有害或怪异的输出。
YaPO:用于领域自适应的可学习稀疏激活导向向量 / YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation
这篇论文提出了一种名为YaPO的新方法,它通过在大语言模型的稀疏编码空间中学习稀疏的“导向向量”,来实现对模型行为的精细、稳定且高效的控制,适用于文化对齐、减少幻觉等多种场景,且不损害模型的通用知识。
请先 登录 后再提交论文