arXiv最新AI论文速览速学

🔍

标签: #data attribution ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 108 72小时内新更新论文 72h更新 208 最新: In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution 02-12

arXiv ID: 2602.11079

arXiv 提交日期: 2026-02-11

llm model training model evaluation data attribution emergent behavior post-training safety preference learning

野生模型生物体：通过数据归因缓解生产级大语言模型微调中的不良涌现行为 / In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution

1️⃣ 一句话总结

这篇论文提出了一种基于激活的数据归因方法，能够像追踪病源一样，精准找出导致大语言模型在微调后产生有害行为的训练数据，并通过移除或修改这些数据，有效消除模型在特定场景下（如被无害指令干扰时）服从危险请求的不良行为，且成本低廉。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10097

arXiv 提交日期: 2026-02-10

model training theory natural language processing data attribution transformer interpretability influence functions recurrent computation tracin

循环Transformer的步骤分解数据归因 / Step-resolved data attribution for looped transformers

1️⃣ 一句话总结

这篇论文提出了一种名为‘步骤分解影响力’的新方法，它能精确追踪训练数据在循环神经网络每一步推理过程中的具体影响，从而帮助人们更好地理解AI模型内部的‘思考’过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21996

arXiv 提交日期: 2026-01-29

llm model training theory mechanistic interpretability influence functions data attribution circuit analysis training dynamics

机制化数据归因：追踪可解释大语言模型单元的训练起源 / Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

1️⃣ 一句话总结

这篇论文提出了一个名为MDA的新方法，能够像‘基因溯源’一样，精准找出训练数据中哪些具体样本催生了模型内部的可解释功能单元（如‘归纳头’），并通过实验证实了这些单元与模型上下文学习能力之间的因果联系，最终还利用这一发现开发了一种能有效引导模型发展的数据增强技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.11079

1️⃣ 一句话总结

arXiv ID: 2602.10097

1️⃣ 一句话总结

arXiv ID: 2601.21996

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.11079 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10097 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21996 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.11079

arXiv ID: 2602.10097

arXiv ID: 2601.21996