arXiv最新AI论文速览速学

🔍

标签: #self-distillation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning 06-22

arXiv ID: 2606.19327

arXiv 提交日期: 2026-06-17

llm model training reasoning self-distillation rubric supervised learning reward

重新思考奖励监督：基于评分准则的自蒸馏方法 / Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

1️⃣ 一句话总结

本文提出一种新的训练推理模型的方法，通过引入详细的评分准则（rubrics）作为结构化反馈，让学生模型从自身的推理过程中学习，避免了传统蒸馏依赖昂贵且可能有错的标准答案，以及强化学习仅用单一分数指导的不足，从而在科学推理任务上取得了比现有方法更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18974

arXiv 提交日期: 2026-06-17

multi-modal model training model evaluation unified multimodal models self-distillation visual thoughts reasoning efficiency

视觉-操作策略自蒸馏：面向高效统一多模态推理的跨模态在线学习方法 / Visual-OPSD: Cross-Modal On-Policy Self-Distillation for Efficient Unified Multimodal Reasoning

1️⃣ 一句话总结

本文发现多模态模型中生成的“视觉思维”虽然能提升推理效果，但其代价高昂的多步扩散过程实际上并未被充分利用，因此提出了一种新的自蒸馏方法：让模型在训练过程中只依赖问题文本而不生成图像，就能从教师模型中迁移出更高效的推理能力，最终在多个基准上实现大幅加速且性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18844

arXiv 提交日期: 2026-06-17

llm reinforcement learning self-distillation reasoning error correction policy optimization trajectory construction

从自身错误中学习：构建可学习的微反思轨迹用于自我蒸馏 / Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

1️⃣ 一句话总结

本文提出了一种名为TAPO的新方法，通过让大语言模型在强化学习中对同一问题同时生成正确和错误的回答，并利用这种对比信息构建精细的修正训练轨迹，从而更准确地定位和纠正模型自身的推理错误，在多项数学推理测试中取得了比现有方法更稳定的性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.15576

arXiv 提交日期: 2026-06-14

llm reinforcement learning model training credit assignment self-distillation reasoning chain-of-thought verifiable reward

在分叉点定位信用：基于路径条件的自蒸馏方法提升大语言模型推理能力 / Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为“回溯自蒸馏”的新方法，通过让模型在训练过程中参考同一批中成功的推理路径，而不是仅仅依赖最终答案，从而更精准地识别并强化推理链条中导致成功的关键决策点，显著提升了数学和代码推理任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06076

arXiv 提交日期: 2026-06-04

computer vision agents model training visual planning self-distillation modality gap spatial reasoning state recovery

基于模态差距感知自蒸馏的符号状态视觉空间规划学习 / Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为MGSD的两阶段自蒸馏方法，通过先让视觉模型学习准确的物体状态表示，再让符号规划专家用“教师-学生”模式指导视觉模型进行多步推理，从而在不依赖符号输入的情况下，显著提升了视觉空间规划任务的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03603

arXiv 提交日期: 2026-06-02

multi-modal machine learning model training world models multimodal llm reasoning visual simulation self-distillation

世界模型遇上语言模型：论具体推理与抽象推理的互补性 / World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

1️⃣ 一句话总结

本文提出了一种结合世界模型（用于生成具体视觉预测）与多模态大语言模型（用于抽象推理）的框架，通过自训练方法让模型自主判断何时启用视觉模拟并验证其结果，显著提升了在空间推理和开放域物理预测任务上的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28014

arXiv 提交日期: 2026-05-27

llm natural language processing self-distillation reasoning generalization llm reasoning

反思式策略内自蒸馏：面向跨领域语言模型推理 / ROSD: Reflective On-Policy Self-Distillation for Language Model Reasoning across Domains

1️⃣ 一句话总结

本文提出了一种名为ROSD的新方法，通过让语言模型在训练时反思自己的错误并只在错误位置进行针对性修正，从而显著提升了模型在熟悉和不熟悉问题上的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28791

arXiv 提交日期: 2026-05-27

llm model training model evaluation self-distillation reasoning skill retrieval gated objective math reasoning

基于技能条件的门控自蒸馏方法用于提升大语言模型推理能力 / Skill-Conditioned Gated Self-Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出一种名为SGSD的新方法，通过从经验中提取可复用的技能（而非依赖标准答案）作为辅助信息，并利用门控机制筛选可靠的师生差异进行自我蒸馏，从而在数学推理任务上显著提升大语言模型的推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17778

arXiv 提交日期: 2026-05-18

machine learning theory self-distillation spectral shrinkage spiked covariance optimality federated learning

在尖峰协方差模型中，自我蒸馏是最优的谱收缩估计方法 / Self-Distillation is Optimal Among Spectral Shrinkage Estimators in Spiked Covariance Models

1️⃣ 一句话总结

本文通过严格证明指出，在数据存在少量主要特征（尖峰）的协方差模型中，进行恰好等于特征数量的多步自我蒸馏，能够比其他常见统计方法更准确地估计数据的内在结构，并且最佳方法在不同数据分布和联邦学习场景下都表现为自我蒸馏的一种变体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.07055

arXiv 提交日期: 2026-05-08

medical multi-modal model training foundation model saliency-guided masking missing modality multi-organ imaging self-distillation

Pan-FM：一种具有显著性引导掩码的跨器官基础模型，用于应对数据缺失鲁棒性 / Pan-FM: A Pan-Organ Foundation Model with Saliency-Guided Masking for Missing Robustness

1️⃣ 一句话总结

本文提出了一个名为 Pan-FM 的跨器官基础模型，它能同时学习大脑、心脏、肝脏等七个器官的影像特征，并通过一种巧妙的“显著性引导掩码”技术，自动减少模型对强势器官的过度依赖，从而在部分器官数据缺失的真实场景下仍能稳定预测多种疾病。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19327

1️⃣ 一句话总结

arXiv ID: 2606.18974

1️⃣ 一句话总结

arXiv ID: 2606.18844

1️⃣ 一句话总结

arXiv ID: 2606.15576

1️⃣ 一句话总结

arXiv ID: 2606.06076

1️⃣ 一句话总结

arXiv ID: 2606.03603

1️⃣ 一句话总结

arXiv ID: 2605.28014

1️⃣ 一句话总结

arXiv ID: 2605.28791

1️⃣ 一句话总结

arXiv ID: 2605.17778

1️⃣ 一句话总结

arXiv ID: 2605.07055

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19327 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18974 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.15576 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06076 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03603 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28014 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28791 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17778 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.07055 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19327

arXiv ID: 2606.18974

arXiv ID: 2606.18844

arXiv ID: 2606.15576

arXiv ID: 2606.06076

arXiv ID: 2606.03603

arXiv ID: 2605.28014

arXiv ID: 2605.28791

arXiv ID: 2605.17778

arXiv ID: 2605.07055