arXiv最新AI论文速览速学

🔍

标签: #supervised learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation 06-18

arXiv ID: 2606.19327

arXiv 提交日期: 2026-06-17

llm model training reasoning self-distillation rubric supervised learning reward

重新思考奖励监督：基于评分准则的自蒸馏方法 / Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

1️⃣ 一句话总结

本文提出一种新的训练推理模型的方法，通过引入详细的评分准则（rubrics）作为结构化反馈，让学生模型从自身的推理过程中学习，避免了传统蒸馏依赖昂贵且可能有错的标准答案，以及强化学习仅用单一分数指导的不足，从而在科学推理任务上取得了比现有方法更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02044

arXiv 提交日期: 2026-06-01

medical machine learning diffusion mri noise synthesis microstructure estimation covariate shift supervised learning

真实噪声合成减少偏差并提升基于监督学习的组织微结构估计 / Realistic noise synthesis reduces bias and improves tissue microstructure estimation with supervised machine learning

1️⃣ 一句话总结

本研究提出一种名为真实噪声合成（RNS）的方法，通过在训练数据中模拟与真实扫描相似的噪声模式，有效减少了因数据噪声不匹配导致的估算偏差，显著提升了利用扩散MRI进行脑组织微结构估计的准确性，尤其适用于高分辨率或高b值等低信噪比场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30015

arXiv 提交日期: 2026-05-28

machine learning model training causal discovery supervised learning test time training distribution shift generalization

面向监督因果学习的测试时训练方法 / Test Time Training for Supervised Causal Learning

1️⃣ 一句话总结

本文提出一种测试时训练框架，通过在测试阶段动态生成与当前样本匹配的训练数据，有效解决了监督因果学习方法在真实场景中泛化能力差、分布偏移敏感和组合推理失败的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03124

arXiv 提交日期: 2026-02-03

machine learning model evaluation natural language processing category learning few-shot learning human-ai comparison supervised learning cognitive science

类别学习中的特征、对齐与监督：儿童与神经网络的比较研究 / Feature, Alignment, and Supervision in Category Learning: A Comparative Approach with Children and Neural Networks

1️⃣ 一句话总结

这项研究通过公平的实验设计比较了儿童和卷积神经网络在少量标签下的类别学习能力，发现儿童能快速从极少的标签中学习但受特定特征和感知对齐的强烈影响，而神经网络则更多依赖于增加监督，其学习效果受特征结构和对齐的调节，表明比较人类与模型必须在考虑监督、特征和对齐三者交互的具体条件下进行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.02522

arXiv 提交日期: 2025-09-02

reinforcement learning llm model training verifiable rewards policy optimization mathematical reasoning actor-critic supervised learning

基于监督学习框架的隐式行动者评论家耦合强化学习可验证奖励方法 / Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

1️⃣ 一句话总结

这篇论文提出了一种名为PACS的新方法，通过将强化学习中的可验证奖励问题转化为监督学习任务，巧妙地结合了行动者和评论家的角色，从而在数学推理等任务上实现了更稳定高效的训练和更优的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.17437

arXiv 提交日期: 2025-08-20

computer vision systems model training 3d physics material properties supervised learning gaussian splatting synthetic data

Pixie：基于像素的快速通用化三维物理监督学习 / Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

1️⃣ 一句话总结

这篇论文提出了一个名为Pixie的快速神经网络方法，能够直接从三维视觉特征中学习并预测物体的物理属性（如弹性），无需逐场景优化，且训练后能快速泛化到真实世界场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19327

1️⃣ 一句话总结

arXiv ID: 2606.02044

1️⃣ 一句话总结

arXiv ID: 2605.30015

1️⃣ 一句话总结

arXiv ID: 2602.03124

1️⃣ 一句话总结

arXiv ID: 2509.02522

1️⃣ 一句话总结

arXiv ID: 2508.17437

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19327 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02044 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30015 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03124 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.02522 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.17437 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19327

arXiv ID: 2606.02044

arXiv ID: 2605.30015

arXiv ID: 2602.03124

arXiv ID: 2509.02522

arXiv ID: 2508.17437