arXiv最新AI论文速览速学

🔍

标签: #influence functions ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: CLIF: Concept-Level Influence Functions for Transparent Bottleneck Models 05-20

arXiv ID: 2605.19848

arXiv 提交日期: 2026-05-19

natural language processing model evaluation general influence functions interpretability concept bottleneck data debugging nlp

CLIF：面向透明瓶颈模型的概念级影响函数 / CLIF: Concept-Level Influence Functions for Transparent Bottleneck Models

1️⃣ 一句话总结

这篇论文提出了一种利用影响函数来提升深度学习模型可解释性的方法，不仅能找出对预测结果最有影响的训练样本（包括正面和负面），还首次在概念瓶颈模型中定位出关键概念，通过调整这些样本或概念即可改变模型行为，从而让模型的决策过程更加透明易懂。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19578

arXiv 提交日期: 2026-02-23

machine learning model training data active learning data acquisition influence functions optimization curvature

面向目标的影响力最大化数据采集用于学习与优化 / Goal-Oriented Influence-Maximizing Data Acquisition for Learning and Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为GOIMDA的新型主动数据采集算法，它通过最大化所选数据对用户指定目标（如测试误差或优化器推荐值）的预期影响力来高效选择数据，无需复杂的概率推断，就能在多种学习和优化任务中用更少的样本达到目标性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19130

arXiv 提交日期: 2026-02-22

model evaluation data machine learning labeling bias influence functions data quality fairness error detection

使用影响函数检测标注偏见 / Detecting labeling bias using influence functions

1️⃣ 一句话总结

这篇论文提出了一种利用影响函数来检测数据集中因人为疏忽或资源限制导致的错误标签的方法，并在图像识别和医疗影像数据集上验证了其有效性，能成功识别出大部分标注错误的样本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14869

arXiv 提交日期: 2026-02-16

llm model training model evaluation training data attribution interpretability influence functions concept-based attribution scalable methods

概念影响力：利用可解释性提升训练数据归因的性能与效率 / Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution

1️⃣ 一句话总结

这篇论文提出了一种名为‘概念影响力’的新方法，它通过分析模型内部可解释的语义概念（而非单个测试样本）来追溯训练数据对模型行为的影响，从而在保持准确性的同时，大幅提升了归因分析的效率和可扩展性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10097

arXiv 提交日期: 2026-02-10

model training theory natural language processing data attribution transformer interpretability influence functions recurrent computation tracin

循环Transformer的步骤分解数据归因 / Step-resolved data attribution for looped transformers

1️⃣ 一句话总结

这篇论文提出了一种名为‘步骤分解影响力’的新方法，它能精确追踪训练数据在循环神经网络每一步推理过程中的具体影响，从而帮助人们更好地理解AI模型内部的‘思考’过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21996

arXiv 提交日期: 2026-01-29

llm model training theory mechanistic interpretability influence functions data attribution circuit analysis training dynamics

机制化数据归因：追踪可解释大语言模型单元的训练起源 / Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

1️⃣ 一句话总结

这篇论文提出了一个名为MDA的新方法，能够像‘基因溯源’一样，精准找出训练数据中哪些具体样本催生了模型内部的可解释功能单元（如‘归纳头’），并通过实验证实了这些单元与模型上下文学习能力之间的因果联系，最终还利用这一发现开发了一种能有效引导模型发展的数据增强技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26491

arXiv 提交日期: 2025-10-30

reinforcement learning llm model training data selection influence functions off-policy learning efficient rl curriculum learning

基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为CROPI的新方法，通过理论指导的数据选择技术，大幅提升了大型语言模型在强化学习训练中的效率，仅用10%的数据就能实现2.66倍的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19848

1️⃣ 一句话总结

arXiv ID: 2602.19578

1️⃣ 一句话总结

arXiv ID: 2602.19130

1️⃣ 一句话总结

arXiv ID: 2602.14869

1️⃣ 一句话总结

arXiv ID: 2602.10097

1️⃣ 一句话总结

arXiv ID: 2601.21996

1️⃣ 一句话总结

arXiv ID: 2510.26491

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19848 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19578 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14869 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10097 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21996 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26491 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19848

arXiv ID: 2602.19578

arXiv ID: 2602.19130

arXiv ID: 2602.14869

arXiv ID: 2602.10097

arXiv ID: 2601.21996

arXiv ID: 2510.26491