arXiv最新AI论文速览速学

🔍

标签: #mechanistic interpretability ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs 06-22

arXiv ID: 2606.18656

arXiv 提交日期: 2026-06-17

llm model evaluation alignment benchmark bias mechanistic interpretability safety

错误的“正确”：量化与定位大语言模型中的错位对齐 / The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs

1️⃣ 一句话总结

这篇论文发现，为了让大语言模型更安全而进行的“对齐”训练，有时会适得其反——模型会过度拒绝原本合理且被上下文证据支持的结论（尤其是涉及刻板印象的问题），作者通过新提出的基准测试VETO和指标MAR量化了这种现象，并证明这种错误模式源自训练后的模型在深层网络中压制了证据支持的回答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.19317

arXiv 提交日期: 2026-06-17

llm machine learning interpretability attention heads program synthesis mechanistic interpretability reverse engineering

用程序合成来解释注意力机制 / Explaining Attention with Program Synthesis

1️⃣ 一句话总结

本文提出了一种通过自动生成简单Python程序来模拟和替代Transformer模型中注意力头行为的方法，使得我们既能用人类可读的代码理解模型内部运作，又能在替换大量注意力头后几乎不损害模型性能，从而实现神经网络的可解释性突破。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11657

arXiv 提交日期: 2026-06-10

machine learning model evaluation theory interpretability mechanistic interpretability sparse autoencoder continuum dynamics foundation model

稀疏探针与模糊物理：连续介质动力学基础模型的可解释性挑战案例研究 / Sparse probes and murky physics: a case study of interpretability challenges in a foundation model for continuum dynamics

1️⃣ 一句话总结

该论文通过分析一个能够模拟连续介质动力学的基础AI模型（Walrus）的内部工作机制，发现其学习到的特征与经典物理分解并不完全对应，且模型在特定条件下会出现能量分布偏差，揭示了用物理直觉解释这类模型时面临的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.23036

arXiv 提交日期: 2026-05-21

llm machine learning sparse autoencoders steering multilingual mechanistic interpretability

多语言引导的设计原则：多语言稀疏自编码器与层次选择原理 / Multilingual Steering by Design: Multilingual Sparse Autoencoders and Principled Layer Selection

1️⃣ 一句话总结

本文提出了一种基于多语言数据的稀疏自编码器训练方法，并结合一种新的分层选择规则，显著提升了大型语言模型在多语言场景下语言控制的可解释性和生成质量，为解决跨语言任务中的可靠引导问题提供了理论指导和实践方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17704

arXiv 提交日期: 2026-05-18

machine learning interpretability lottery ticket hypothesis feature space mechanistic interpretability superposition weight space

玩具组合可解释性模型揭示早期特征空间中的中奖彩票 / Toy Combinatorial Interpretability Models Reveal Lottery Tickets in Early Feature Space

1️⃣ 一句话总结

该研究通过一个简化的玩具模型，揭示了神经网络中的“中奖彩票”（稀疏子网络）实际上对应的是初始化时就已经接近最终特征编码的“前驱位置”，其本质是特征空间中的几何结构（而非权重空间中的特定子网络），并通过特征距离等轻量级探针验证了这一发现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12671

arXiv 提交日期: 2026-05-12

llm machine learning model evaluation circuit discovery sheaf discovery functional anisotropy mechanistic interpretability high-dimensional superposition

条条大路通罗马：重新思考大语言模型电路和层流发现中的功能各向异性 / All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs

1️⃣ 一句话总结

该论文通过实验和理论证明，大语言模型中同一任务可以由多种不同内部机制（电路或层流）实现，并非只有唯一固定的路径，并提出了重叠感知层流排斥方法，用于挖掘这些具有相同功能但结构差异大的机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18510

arXiv 提交日期: 2026-04-20

llm model evaluation machine learning jailbreaks safety alignment harmful compliance mechanistic interpretability model repair

通往有害合规的不同路径：大语言模型越狱的行为副作用与机制差异 / Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

1️⃣ 一句话总结

这篇论文研究发现，通过三种不同技术手段（有害微调、有害强化学习、拒绝抑制消除）都能让开源大语言模型变得有害，但它们在内部工作机制、安全判断能力、通用性能以及修复难度上存在巨大差异，其中基于强化学习的方法在保持模型原有能力和安全认知的同时，仅改变了其行为策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13950

arXiv 提交日期: 2026-04-15

llm natural language processing theory syntactic islands mechanistic interpretability causal interventions transformer models linguistic representation

因果桥梁：探究Transformer语言模型中句法孤岛梯度阻塞的特征 / Causal Drawbridges: Characterizing Gradient Blocking of Syntactic Islands in Transformer LMs

1️⃣ 一句话总结

这篇论文通过分析Transformer语言模型如何像人类一样对英语中不同难度的‘句法孤岛’结构做出判断，揭示了模型内部处理这类复杂句法时存在选择性‘阻塞’机制，并由此提出了关于连词‘and’在不同结构中具有不同语言学表征的新假设。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11791

arXiv 提交日期: 2026-04-13

llm theory model evaluation mechanistic interpretability reasoning recurrent models latent dynamics fixed points

循环推理语言模型的机制分析 / A Mechanistic Analysis of Looped Reasoning Language Models

1️⃣ 一句话总结

这篇论文通过分析一种让语言模型内部结构循环运行的新方法，发现这种循环模型在推理时会形成稳定的内部状态循环，其推理步骤与普通模型类似但会重复进行，为设计更高效的语言模型提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08524

arXiv 提交日期: 2026-04-09

llm theory model evaluation steering vectors mechanistic interpretability activation patching refusal behavior circuit analysis

什么驱动了表征转向？关于引导拒绝行为的机制性案例研究 / What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal

1️⃣ 一句话总结

这篇论文通过研究如何用“转向向量”改变大语言模型的拒绝行为，揭示了这种技术主要通过影响模型内部注意力机制中的特定电路来发挥作用，并且发现这些向量可以被大幅精简而保持效果，为理解模型对齐技术提供了清晰的内部机制解释。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18656

1️⃣ 一句话总结

arXiv ID: 2606.19317

1️⃣ 一句话总结

arXiv ID: 2606.11657

1️⃣ 一句话总结

arXiv ID: 2605.23036

1️⃣ 一句话总结

arXiv ID: 2605.17704

1️⃣ 一句话总结

arXiv ID: 2605.12671

1️⃣ 一句话总结

arXiv ID: 2604.18510

1️⃣ 一句话总结

arXiv ID: 2604.13950

1️⃣ 一句话总结

arXiv ID: 2604.11791

1️⃣ 一句话总结

arXiv ID: 2604.08524

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18656 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.19317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.23036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17704 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12671 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18510 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13950 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11791 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08524 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18656

arXiv ID: 2606.19317

arXiv ID: 2606.11657

arXiv ID: 2605.23036

arXiv ID: 2605.17704

arXiv ID: 2605.12671

arXiv ID: 2604.18510

arXiv ID: 2604.13950

arXiv ID: 2604.11791

arXiv ID: 2604.08524