Brain-Grounded Axes for Reading and Steering LLM States

📄 Abstract - Brain-Grounded Axes for Reading and Steering LLM States

Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.

基于人类大脑活动构建坐标系统以解读和调控大语言模型 / Brain-Grounded Axes for Reading and Steering LLM States

1️⃣ 一句话总结

本研究提出了一种创新方法，利用人类大脑活动（MEG数据）而非文本监督来构建一个外部、稳定的坐标系统，并通过训练轻量级适配器将大语言模型（LLM）的内部状态映射到这些“大脑轴”上，从而实现对模型行为的可解释且可控的调控，而无需微调模型本身。

2️⃣ 论文创新点

1. 基于大脑活动图谱的坐标系统构建

创新点：提出使用人类大脑活动（基于MEG相位锁定值PLV模式）而非文本标签，来构建一个外部、稳定的坐标系统，用于解读和调控LLM的内部状态。
区别/改进：区别于以往使用文本监督或优化目标来发现方向的方法，该方法利用神经生理学测量数据，提供了外部认知基础。
意义：为LLM可解释性研究提供了一个新的、外部接地的接口，使得对模型内部状态的解读和调控更具生物学意义和稳定性。

2. 轻量级适配器映射与无微调控

创新点：训练一个轻量级适配器，将LLM的词级隐藏状态映射到从大脑图谱中提取的轴上，并实现沿这些大脑衍生方向的模型行为调控，而无需对LLM本身进行微调。
区别/改进：避免了直接优化或微调大型LLM的计算成本和风险，通过轻量级模块实现与大脑坐标系统的对接。
意义：提供了一种高效、低成本的LLM行为干预方法，便于探索模型表征与人类神经表征之间的对齐关系。

3. 鲁棒且跨模型的大脑轴验证

创新点：验证了从大脑图谱中提取的轴的有效性：一个与词汇频率相关的轴在TinyLlama中层表现出鲁棒的调控效果；一个功能/内容轴在TinyLlama、Qwen2-0.5B和GPT-2等多个模型中均能产生一致的调控效果。
区别/改进：通过困惑度匹配控制、大脑轴与文本探针对比等实验设计，增强了结论的可靠性。证明了大脑轴结构的稳定性（例如，移除GPT嵌入变化特征或用word2vec重建图谱时，轴间相关性高）。
意义：表明基于大脑活动提取的语义轴具有跨模型的泛化性和稳定性，为构建通用的、基于认知的模型分析工具提供了证据。

4. 大脑轴引导在提升流畅性方面优于纯文本探针

创新点：在引导实验中，与词汇频率相关的大脑轴（Axis 15）在改变生成文本词频的同时，显著降低了文本的困惑度（PPL），即提升了流畅性。相比之下，仅基于文本数据训练的同类词频探针虽然也改变了词频，却增加了困惑度。
区别/改进：大脑轴引导实现了语义控制（改变词频）与文本质量（保持流畅）的更好平衡，而纯文本方法在此任务上存在权衡。
意义：表明从大脑活动中解码的语义结构可能捕获了更自然、更符合人类语言使用习惯的特征组合，为改进LLM的语义控制提供了新方向。

5. 严格的轴验证与消融分析

创新点：使用独立的语言学词典（如具体性、效价、唤醒度）验证大脑轴，并通过控制混淆变量（如词频、惊奇度、词长）和进行消融实验（如移除GPT嵌入变化特征、使用word2vec、移除词性特征）来确认轴的稳健性和独立性。
区别/改进：通过多方面的验证和控制实验，区分了哪些轴是稳健且独立的语义维度，哪些可能受特定特征驱动。
意义：确保了所发现语义轴的有效性和解释力，明确了不同特征（如GPT嵌入变化、词频、词性）对轴形成的贡献。

3️⃣ 主要结果与价值

结果亮点

从大脑图谱中成功提取出多个与独立语言学标签（如具体性、效价、唤醒度）显著相关的语义轴，其中具体性、效价和唤醒度轴的效应最强。
跨被试验证（奇偶分组）支持语义结构在受试者间的稳定性。
适配器可泛化到未见词汇和不同LLM架构（TinyLlama, Qwen2-0.5B），支持其作为跨LLM“接口”的框架。
关键引导实验提供了主要证据：与词汇频率相关的大脑轴（Axis 15）在TinyLlama第11层能稳定引导文本生成，产生较大的对数词频变化且降低困惑度，优于纯文本探针，并与标准的ActAdd方法方向正交且能提升流畅性。
Axis 13（功能/内容）在多个模型（TinyLlama, Qwen-0.5B, GPT-2）中表现出跨模型一致的引导效应，而Axis 15的效应则具有模型依赖性（在GPT-2中不显著）。
基线实验（随机方向引导）表明任意方向不产生显著效果。对比大脑轴、文本探针和ActAdd的操控效率，发现大脑轴操控在产生较大对数频率偏移的同时，改善了困惑度。

实际价值

为理解和控制大语言模型提供了一种新的、基于神经科学的视角和工具，使模型调控更具可解释性和生物学基础。
提出的轻量级适配器方法高效、低成本，无需微调大模型，降低了模型操控的门槛和风险。
证明了大脑语义轴作为跨模型通用“接口”的潜力，为构建统一的、受神经科学启发的AI语义控制方法奠定了基础。
揭示了大脑轴引导在平衡语义控制和文本质量方面的优势，为改进文本生成的可控性提供了新思路。
研究方法和发现有助于推动脑机接口和可控文本生成领域的交叉研究。

4️⃣ 术语表

相位锁定值：Phase-Locking Value (PLV)，一种用于量化两个信号之间相位同步程度的度量。在本文中，用于计算MEG传感器在theta频带（4-8 Hz）上的连接性，以构建反映大脑语义处理状态的时间序列特征。
SMN4Lang：本文使用的同步MEG/fMRI数据集（OpenNeuro ds004078 v1.2.1），记录了受试者在聆听自然故事时的大脑活动，并包含词级别的时间标注。
ICA (Independent Component Analysis)：独立成分分析，一种盲源分离方法，用于从多变量数据中提取出统计上独立的成分。在本研究中，用于从平均词图谱中发现潜在的语义轴。
Steering：引导/调控，指在语言模型生成过程中，通过向特定层的隐藏状态添加一个代表特定语义轴（如生命性、词频）的向量，来有目的地影响模型输出文本属性的方法。
Axis 15：一个与词汇频率强相关的大脑语义轴。在引导实验中，该轴在TinyLlama和Qwen-0.5B中能有效改变生成文本的词频分布，同时保持或提升文本流畅性，但其效应在GPT-2中不显著，表现出模型依赖性。
perplexity (PPL)：困惑度，用于衡量语言模型预测序列好坏的指标，值越低表示模型预测越准确、文本越流畅。
adapter-score：适配器分数，在本研究中是用于量化模型输出受操控影响程度的主要评估指标。
perm p：置换检验得出的p值，用于评估观察到的效应（如适配器分数偏移）是否显著区别于随机情况。
HRF (Hemodynamic Response Function)：血流动力学响应函数，用于建模神经活动与fMRI测量的血氧水平依赖（BOLD）信号之间的延迟和形状关系。文中分析了不同HRF假设对fMRI锚定结果的影响。
MELD-SCH：一个用于中文词汇决策任务的大型研究数据集。
OpenNeuro ds004078 (SMN4Lang)：一个用于研究大脑语言处理的同步多模态神经影像数据集。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 基于大脑活动图谱的坐标系统构建

2. 轻量级适配器映射与无微调控

3. 鲁棒且跨模型的大脑轴验证

4. 大脑轴引导在提升流畅性方面优于纯文本探针

5. 严格的轴验证与消融分析

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 基于大脑活动图谱的坐标系统构建

2. 轻量级适配器映射与无微调控

3. 鲁棒且跨模型的大脑轴验证

4. 大脑轴引导在提升流畅性方面优于纯文本探针

5. 严格的轴验证与消融分析

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要