arXiv最新AI论文速览速学

🔍

标签: #sparse autoencoder ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Sparse probes and murky physics: a case study of interpretability challenges in a foundation model for continuum dynamics 06-11

arXiv ID: 2606.11657

arXiv 提交日期: 2026-06-10

machine learning model evaluation theory interpretability mechanistic interpretability sparse autoencoder continuum dynamics foundation model

稀疏探针与模糊物理：连续介质动力学基础模型的可解释性挑战案例研究 / Sparse probes and murky physics: a case study of interpretability challenges in a foundation model for continuum dynamics

1️⃣ 一句话总结

该论文通过分析一个能够模拟连续介质动力学的基础AI模型（Walrus）的内部工作机制，发现其学习到的特征与经典物理分解并不完全对应，且模型在特定条件下会出现能量分布偏差，揭示了用物理直觉解释这类模型时面临的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30120

arXiv 提交日期: 2026-05-28

machine learning information retrieval systems multi-vector retrieval sparse coding sparse autoencoder inverted indexing efficiency

告别K-means：用于高效多向量检索的单阶段稀疏编码方法 / No More K-means: Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval

1️⃣ 一句话总结

本文提出一种名为SSR的新方法，用稀疏自动编码器替代传统多向量检索中依赖K-means聚类的复杂压缩步骤，将词元向量转换为高维稀疏表示，从而大幅降低索引时间和检索延迟，同时提升检索准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02908

arXiv 提交日期: 2026-03-03

llm model training model evaluation transferability sparse autoencoder interpretability fine-tuning feature analysis

SAE作为水晶球：无需训练，利用可解释特征预测大语言模型的跨领域可迁移性 / SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

1️⃣ 一句话总结

这篇论文提出了一种名为STS的新方法，它利用稀疏自编码器分析大语言模型内部特征的变化，能够在模型进行下游任务微调之前，就准确预测其在不同领域应用中的表现好坏，为模型优化提供了可解释的指导工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10388

arXiv 提交日期: 2026-02-11

llm model training data data synthesis feature activation sparse autoencoder post-training knowledge transfer

少即是够：在大型语言模型特征空间中合成多样化数据 / Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

1️⃣ 一句话总结

这篇论文提出了一种通过分析模型内部特征来合成多样化训练数据的新方法，能有效提升大语言模型在多种任务上的性能，并且发现不同模型家族之间存在可共享的通用特征空间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04718

arXiv 提交日期: 2026-02-04

llm model training theory sparse autoencoder orthogonality regularization feature disentanglement causal intervention interpretability

通过正交正则化识别可干预与可解释的特征 / Identifying Intervenable and Interpretable Features via Orthogonality Regularization

1️⃣ 一句话总结

这篇论文提出了一种使用正交正则化的方法，在微调语言模型时让特征变得几乎正交，从而减少特征间的干扰，提升特征的可解释性和可干预性，同时保持模型性能基本不变。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08441

arXiv 提交日期: 2026-01-13

llm model training agents activation steering sparse autoencoder domain adaptation preference optimization alignment

YaPO：用于领域自适应的可学习稀疏激活导向向量 / YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

1️⃣ 一句话总结

这篇论文提出了一种名为YaPO的新方法，它通过在大语言模型的稀疏编码空间中学习稀疏的“导向向量”，来实现对模型行为的精细、稳定且高效的控制，适用于文化对齐、减少幻觉等多种场景，且不损害模型的通用知识。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.11657

1️⃣ 一句话总结

arXiv ID: 2605.30120

1️⃣ 一句话总结

arXiv ID: 2603.02908

1️⃣ 一句话总结

arXiv ID: 2602.10388

1️⃣ 一句话总结

arXiv ID: 2602.04718

1️⃣ 一句话总结

arXiv ID: 2601.08441

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.11657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02908 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10388 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08441 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.11657

arXiv ID: 2605.30120

arXiv ID: 2603.02908

arXiv ID: 2602.10388

arXiv ID: 2602.04718

arXiv ID: 2601.08441