arXiv最新AI论文速览速学

🔍

标签: #interpretability ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Discovering Latent Groups for Robust Classification 06-23

arXiv ID: 2602.07689

arXiv 提交日期: 2026-02-07

multi-modal video model evaluation video reasoning process-of-thought temporal grounding interpretability vision-language models

视频的思维过程推理 / Process-of-Thought Reasoning for Videos

1️⃣ 一句话总结

这篇论文提出了一个名为‘思维过程’的视频推理框架，它将复杂的视频理解任务分解成一系列可验证的步骤，从而让推理过程更清晰、更准确，并减少错误，同时适用于不同的现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.06020

arXiv 提交日期: 2026-02-05

biology machine learning model evaluation protein folding esmfold interpretability counterfactual analysis computational biology

ESMFold中AI蛋白质折叠的机制研究 / Mechanisms of AI Protein Folding in ESMFold

1️⃣ 一句话总结

这篇论文通过分析AI模型ESMFold折叠蛋白质的过程，揭示了它分两步工作：先识别氨基酸的生化特性，再构建它们之间的空间结构关系，从而让我们能理解和干预AI预测蛋白质结构的内在机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05184

arXiv 提交日期: 2026-02-05

theory model evaluation machine learning interpretability renormalization robustness statistical physics multi-scale analysis

迈向具有最坏情况保证与尺度感知可解释性 / Towards Worst-Case Guarantees with Scale-Aware Interpretability

1️⃣ 一句话总结

这篇论文提出了一种名为‘尺度感知可解释性’的新研究框架，旨在借鉴物理学中的重正化理论，开发出能够追踪神经网络在不同尺度上如何组合特征、并保证对噪声影响的可靠解释工具，以提升AI模型的可解释性与安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04718

arXiv 提交日期: 2026-02-04

llm model training theory sparse autoencoder orthogonality regularization feature disentanglement causal intervention interpretability

通过正交正则化识别可干预与可解释的特征 / Identifying Intervenable and Interpretable Features via Orthogonality Regularization

1️⃣ 一句话总结

这篇论文提出了一种使用正交正则化的方法，在微调语言模型时让特征变得几乎正交，从而减少特征间的干扰，提升特征的可解释性和可干预性，同时保持模型性能基本不变。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02132

arXiv 提交日期: 2026-02-02

llm model evaluation theory refusal behavior activation steering model safety interpretability latent space

大语言模型中的拒绝行为不止于单一方向 / There Is More to Refusal in Large Language Models than a Single Direction

1️⃣ 一句话总结

这篇论文研究发现，大语言模型中的拒绝行为并非由单一的激活方向控制，而是对应多个几何上不同的方向，但这些方向都像一个共享的‘一维旋钮’，主要影响模型‘如何拒绝’而非‘是否拒绝’的核心行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21610

arXiv 提交日期: 2026-01-29

model evaluation computer vision multi-modal watermark evaluation vision-language models diffusion models security metrics interpretability

WMVLM：通过视觉语言模型评估扩散模型图像水印 / WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为WMVLM的统一评估框架，它利用视觉语言模型来全面、可解释地评估扩散模型生成图像中的水印质量与安全性，解决了现有方法在评估不同类型水印时存在的诸多局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20420

arXiv 提交日期: 2026-01-28

llm theory model evaluation interpretability concept extraction sparse autoencoders latent variable model unsupervised learning

概念成分分析：一种用于大语言模型概念提取的原则性方法 / Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为‘概念成分分析’的新方法，它基于一个理论模型，通过线性分解大语言模型的内部表示来提取人类可理解的概念，从而解决了现有方法缺乏理论依据的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20834

arXiv 提交日期: 2026-01-28

llm natural language processing model evaluation representation dynamics interpretability linear probes context adaptation factuality

语言模型中的线性表征在对话过程中会发生剧烈变化 / Linear representations in language models can change dramatically over a conversation

1️⃣ 一句话总结

这项研究发现，语言模型内部用于表示概念（比如事实性）的线性方向在对话过程中会发生剧烈且内容依赖性的变化，这意味着对模型特征的静态解释或控制可能不可靠，并揭示了模型会根据对话语境动态调整其内部表征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20028

arXiv 提交日期: 2026-01-27

multi-modal model training machine learning sparse autoencoders representation learning multimodal alignment clip interpretability

利用组稀疏自编码器分解多模态嵌入空间 / Decomposing multimodal embedding spaces with group-sparse autoencoders

1️⃣ 一句话总结

这篇论文提出了一种改进的稀疏自编码器方法，通过跨模态随机掩码和组稀疏正则化技术，成功地将图像/文本或音频/文本等混合数据的嵌入表示分解为更统一、更易于人类理解的高层概念特征，从而提升了多模态任务的可解释性和可控性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19595

arXiv 提交日期: 2026-01-27

machine learning model evaluation theory fairness interpretability bias mitigation optimization classification

通过混合整数优化实现交叉公平 / Intersectional Fairness via Mixed-Integer Optimization

1️⃣ 一句话总结

这篇论文提出了一种基于混合整数优化的新方法，用于训练既公平又易于理解的AI分类器，它特别关注并有效解决了多个受保护群体（如种族、性别）交叉重叠时产生的复杂偏见问题，为金融、医疗等高监管行业提供了实用的解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.07689

1️⃣ 一句话总结

arXiv ID: 2602.06020

1️⃣ 一句话总结

arXiv ID: 2602.05184

1️⃣ 一句话总结

arXiv ID: 2602.04718

1️⃣ 一句话总结

arXiv ID: 2602.02132

1️⃣ 一句话总结

arXiv ID: 2601.21610

1️⃣ 一句话总结

arXiv ID: 2601.20420

1️⃣ 一句话总结

arXiv ID: 2601.20834

1️⃣ 一句话总结

arXiv ID: 2601.20028

1️⃣ 一句话总结

arXiv ID: 2601.19595

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.07689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.06020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21610 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20420 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20834 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20028 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19595 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.07689

arXiv ID: 2602.06020

arXiv ID: 2602.05184

arXiv ID: 2602.04718

arXiv ID: 2602.02132

arXiv ID: 2601.21610

arXiv ID: 2601.20420

arXiv ID: 2601.20834

arXiv ID: 2601.20028

arXiv ID: 2601.19595