arXiv最新AI论文速览速学

🔍

标签: #importance sampling ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching 05-12

arXiv ID: 2605.06474

arXiv 提交日期: 2026-05-07

reinforcement learning machine learning theory off-policy evaluation moment matching importance sampling finite-horizon mdps coverage

Q-MMR：通过递归重加权与矩匹配进行离线策略评估 / Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching

1️⃣ 一句话总结

本文提出了一种名为Q-MMR的新方法，能够通过给每个数据点分配权重并递归匹配价值函数，在仅需知道目标策略的Q函数（即状态-动作价值）的前提下，精准估算该策略在离线数据中的表现，而且其误差大小不会随模型复杂度增加而膨胀，从而显著降低了对历史数据覆盖质量的要求。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04142

arXiv 提交日期: 2026-04-05

model training aigc multi-modal off-policy learning flow matching generative models sample efficiency importance sampling

OP-GRPO：面向流匹配模型的高效离策略GRPO方法 / OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

1️⃣ 一句话总结

这篇论文提出了一种名为OP-GRPO的新方法，它通过引入离策略训练、高质量样本重用和分布偏移校正技术，大幅提升了流匹配模型（用于图像和视频生成）的训练效率，在保持生成质量的同时，平均只需原来约三分之一的训练步骤即可达到同等或更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04127

arXiv 提交日期: 2026-03-04

natural language processing model training theory transformers attention mechanism kernel methods importance sampling efficient training

用于Transformer的数据感知随机特征核 / Data-Aware Random Feature Kernel for Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为DARKFormer的新型Transformer模型，它通过一种数据感知的随机特征核来高效近似注意力计算，在保持线性计算复杂度的同时，显著提升了模型在预训练后微调场景下的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02866

arXiv 提交日期: 2026-03-03

computer vision multi-modal model training 3d reconstruction novel view synthesis gaussian splatting importance sampling sparse-view

用于稀疏视角新视图合成的分层高斯泼溅中的多模态先验引导重要性采样 / Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过融合图像颜色、语义和几何等多种信息来智能判断3D场景中哪些细节可以准确重建，从而在仅有少数几张照片的情况下，生成更清晰、更逼真的新视角图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10637

arXiv 提交日期: 2026-02-11

biology machine learning model training boltzmann generators molecular dynamics coarse-grained modeling importance sampling force matching

粗粒度玻尔兹曼生成器 / Coarse-Grained Boltzmann Generators

1️⃣ 一句话总结

这篇论文提出了一种名为‘粗粒度玻尔兹曼生成器’的新方法，它通过结合简化的分子模型和精确的统计校正技术，高效且准确地模拟大型复杂分子系统的平衡态结构，解决了传统方法难以兼顾计算效率与结果精确性的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01962

arXiv 提交日期: 2026-02-02

reinforcement learning theory model evaluation off-policy learning zero-shot adaptation successor measures stationary distribution correction importance sampling

零样本离线策略学习 / Zero-Shot Off-Policy Learning

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过建立后继度量与稳态密度比的理论联系，能够直接从已有的无奖励数据中快速推断出适应新任务的最优策略，无需额外训练，有效解决了离线策略学习中的分布偏移和估值偏差问题，并在多个机器人控制任务中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01374

arXiv 提交日期: 2025-12-01

reinforcement learning llm model training policy gradient training stability importance sampling mixture-of-experts off-policy learning

利用大语言模型稳定强化学习：公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

1️⃣ 一句话总结

这篇论文通过理论分析和大量实验，解释了如何通过减少训练与推理的差异以及策略过时问题，来稳定大语言模型的强化学习训练，并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.06474

1️⃣ 一句话总结

arXiv ID: 2604.04142

1️⃣ 一句话总结

arXiv ID: 2603.04127

1️⃣ 一句话总结

arXiv ID: 2603.02866

1️⃣ 一句话总结

arXiv ID: 2602.10637

1️⃣ 一句话总结

arXiv ID: 2602.01962

1️⃣ 一句话总结

arXiv ID: 2512.01374

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.06474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02866 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10637 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01962 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01374 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.06474

arXiv ID: 2604.04142

arXiv ID: 2603.04127

arXiv ID: 2603.02866

arXiv ID: 2602.10637

arXiv ID: 2602.01962

arXiv ID: 2512.01374