arXiv最新AI论文速览速学

🔍

标签: #sample efficiency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Is Backpropagation Optimal? When Synthetic Gradients Improve Sample Efficiency 05-28

arXiv ID: 2605.27946

arXiv 提交日期: 2026-05-27

machine learning reinforcement learning model training backpropagation synthetic gradients sample efficiency gradient estimation computational graphs

反向传播是最优的吗？——合成梯度何时能提升样本效率 / Is Backpropagation Optimal? When Synthetic Gradients Improve Sample Efficiency

1️⃣ 一句话总结

本文从样本效率角度挑战了反向传播在神经网络训练中的默认地位，提出在计算图上使用合成梯度作为替代方案，并从理论上证明在特定条件下合成梯度可以比反向传播获得更低的梯度估计误差，从而在上下文强盗和强化学习任务中显著提升样本效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15012

arXiv 提交日期: 2026-05-14

reinforcement learning llm few-shot learning reward verification chain-of-thought sample efficiency supervised fine-tuning

通过随机选取的少量示例引导提升基于可验证奖励的强化学习 / Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

1️⃣ 一句话总结

本文提出一种名为FEST的算法，仅需随机选取128个示例（远少于传统监督微调所需的数据量），就能显著提升强化学习在数学和编程等复杂任务中的样本效率，避免模型过拟合，并在多个基准测试中达到甚至超越使用完整数据集的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27667

arXiv 提交日期: 2026-04-30

reinforcement learning robotics machine learning tabular foundation model policy optimization continuous control global exploration sample efficiency

表格基础模型能否指导机器人策略学习中的探索？ / Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?

1️⃣ 一句话总结

本文提出了一种名为TFM-S3的混合搜索方法，通过间歇性全局搜索与局部更新结合，并利用预训练的表格基础模型预测策略表现，从而在有限的试错次数下大幅提升机器人连续控制策略学习的探索效率和最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13733

arXiv 提交日期: 2026-04-15

robotics reinforcement learning multi-modal vision-language-action jump-start rl action regularization manipulation sample efficiency

利用视觉-语言-动作正则化实现强化学习的快速启动 / Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过将能理解任务目标但动作缓慢的通用视觉语言模型，与擅长快速精确控制的强化学习算法相结合，让机器人更快学会复杂的操作任务，学习效率提升超过50%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12237

arXiv 提交日期: 2026-04-14

agents reinforcement learning medical molecular optimization memory-augmented rl sample efficiency drug discovery multi-turn agents

MolMem：用于高效样本分子优化的记忆增强智能体强化学习框架 / MolMem: Memory-Augmented Agentic Reinforcement Learning for Sample-Efficient Molecular Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MolMem的记忆增强强化学习方法，它通过一个双记忆系统来存储和重用优化经验，从而在药物分子优化任务中，用极少的昂贵实验评估次数，就实现了比现有方法更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04142

arXiv 提交日期: 2026-04-05

model training aigc multi-modal off-policy learning flow matching generative models sample efficiency importance sampling

OP-GRPO：面向流匹配模型的高效离策略GRPO方法 / OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

1️⃣ 一句话总结

这篇论文提出了一种名为OP-GRPO的新方法，它通过引入离策略训练、高质量样本重用和分布偏移校正技术，大幅提升了流匹配模型（用于图像和视频生成）的训练效率，在保持生成质量的同时，平均只需原来约三分之一的训练步骤即可达到同等或更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01985

arXiv 提交日期: 2026-04-02

world models model training agents self-improvement forward-inverse asymmetry prediction verification sample efficiency cycle consistency

世界行动验证器：通过前向-逆向不对称实现自我改进的世界模型 / World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

1️⃣ 一句话总结

这篇论文提出了一种名为‘世界行动验证器’的新方法，通过将复杂的未来状态预测任务分解为两个更简单的验证问题，并利用数据与特征维度上的不对称性，让AI世界模型能够自我检测预测错误并持续改进，从而在多种机器人任务中显著提升了学习效率和最终表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27385

arXiv 提交日期: 2026-03-28

machine learning model training data active learning tabular data in-context learning foundation models sample efficiency

面向表格基础模型的主动上下文学习 / Active In-Context Learning for Tabular Foundation Models

1️⃣ 一句话总结

这篇论文提出了一种名为Tab-AICL的新方法，它结合了主动学习和上下文学习，让表格基础模型（如TabPFN）在只有少量标注数据时，也能高效地选择最有价值的样本进行标注，从而在冷启动阶段显著提升了学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.20607

arXiv 提交日期: 2026-03-21

robotics reinforcement learning multi-modal vision-language-action models model-based rl world models sample efficiency robotic control

迈向实用的基于世界模型的视觉-语言-动作模型强化学习 / Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一个名为VLA-MBPO的实用框架，通过利用统一多模态模型进行高效的世界建模、增强多视图一致性以及减少误差累积，显著提升了视觉-语言-动作机器人在强化学习训练中的性能和样本效率，同时避免了真实世界交互的高成本与安全风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18642

arXiv 提交日期: 2026-03-19

reinforcement learning model evaluation theory policy optimization blackjack dynamic programming benchmark sample efficiency

通过精确的二十一点预言机评估掩蔽动作环境中的无模型策略优化 / Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle

1️⃣ 一句话总结

这篇论文利用无限牌堆的二十一点游戏作为精确可验证的基准，通过一个精确的动态规划预言机评估了三种无模型优化算法的性能，发现尽管奖励曲线平滑，但算法在具体决策上仍存在显著错误，并强调了使用精确基准和负面对照组来避免误判算法性能的重要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.27946

1️⃣ 一句话总结

arXiv ID: 2605.15012

1️⃣ 一句话总结

arXiv ID: 2604.27667

1️⃣ 一句话总结

arXiv ID: 2604.13733

1️⃣ 一句话总结

arXiv ID: 2604.12237

1️⃣ 一句话总结

arXiv ID: 2604.04142

1️⃣ 一句话总结

arXiv ID: 2604.01985

1️⃣ 一句话总结

arXiv ID: 2603.27385

1️⃣ 一句话总结

arXiv ID: 2603.20607

1️⃣ 一句话总结

arXiv ID: 2603.18642

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.27946 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15012 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27667 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13733 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12237 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01985 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27385 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.20607 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18642 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.27946

arXiv ID: 2605.15012

arXiv ID: 2604.27667

arXiv ID: 2604.13733

arXiv ID: 2604.12237

arXiv ID: 2604.04142

arXiv ID: 2604.01985

arXiv ID: 2603.27385

arXiv ID: 2603.20607

arXiv ID: 2603.18642