arXiv最新AI论文速览速学

🔍

标签: #reward learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: Quantifying Potential Observation Missingness in Inverse Reinforcement Learning 05-18

arXiv ID: 2605.15181

arXiv 提交日期: 2026-05-14

computer vision multi-modal agents image editing planning reward learning multi-step visual quality

从规划到像素：学习规划与编排以实现开放式图像编辑 / From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

1️⃣ 一句话总结

本文提出了一种让AI通过先制定分步计划、再逐步执行工具操作来应对复杂、模糊的长期图像编辑任务（如“让广告更素食友好”）的新方法，并通过视觉语言模型对每一步的结果进行奖励反馈，从而自我改进规划与执行能力，最终生成比单步或固定流程方法更连贯、可靠的编辑效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12831

arXiv 提交日期: 2026-05-12

reinforcement learning machine learning medical inverse reinforcement learning missing observations reward learning human behavior modeling healthcare

逆强化学习中潜在观测缺失的量化方法 / Quantifying Potential Observation Missingness in Inverse Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种新方法，用于检测和量化行为数据中可能存在的观测缺失问题，帮助逆强化学习模型在医疗等实际场景中更准确地还原决策者的真实意图，避免因数据不完整而得出误导性结论。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03800

arXiv 提交日期: 2026-03-04

agents model evaluation machine learning coding agents critic model rubric supervision sparse feedback reward learning

基于评分标准监督的稀疏现实世界结果评论模型 / A Rubric-Supervised Critic from Sparse Real-World Outcomes

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过分析人机交互过程中的行为特征来训练一个‘评论模型’，从而帮助AI编程助手在现实世界稀疏、延迟的反馈中更好地学习和决策，提升其实际应用效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20527

arXiv 提交日期: 2026-02-24

reinforcement learning agents model training apprenticeship learning intelligent tutoring systems pedagogical strategies reward learning educational ai

一种用于捕捉演化中学生教学策略的广义学徒学习框架 / A Generalized Apprenticeship Learning Framework for Capturing Evolving Student Pedagogical Strategies

1️⃣ 一句话总结

本研究提出了一种名为THEMES的广义学徒学习框架，它通过少量专家演示来推断并模拟动态变化的教学策略，从而在智能辅导系统中高效地制定出优于现有方法的个性化教学决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15206

arXiv 提交日期: 2026-02-16

reinforcement learning machine learning model training reward learning variational inference multi-feedback bayesian inference imitation learning

MAVRL：通过摊销变分推断从多种反馈类型中学习奖励函数 / MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference

1️⃣ 一句话总结

这篇论文提出了一种名为MAVRL的新方法，能够像侦探综合多种线索一样，将人类提供的演示、比较、评分和停止等不同形式的反馈统一起来，自动学习出更准确、更鲁棒的奖励函数，从而帮助AI智能体更好地理解任务并做出决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10201

arXiv 提交日期: 2026-01-15

llm model training theory reinforcement learning reasoning process supervision reward learning optimization

过程奖励学习提升大语言模型推理能力并拓宽推理边界 / PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

1️⃣ 一句话总结

这篇论文提出了一种名为过程奖励学习（PRL）的新方法，它通过将最终结果的奖励分解为推理过程中的精细监督信号来训练大语言模型，从而在理论上更严谨、训练上更高效地提升了模型的推理能力和解决复杂问题的上限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18966

arXiv 提交日期: 2025-08-26

computer vision model training aigc style transfer subject-driven generation disentangled learning reward learning image customization

USO：通过解耦与奖励学习实现统一风格与主体驱动的生成 / USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

1️⃣ 一句话总结

这项研究提出了一个名为USO的统一模型，能够同时保证生成图像在风格上与参考风格图相似、在主体内容上与原始内容图一致，解决了以往方法中风格与主体生成任务相互割裂的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.15181

1️⃣ 一句话总结

arXiv ID: 2605.12831

1️⃣ 一句话总结

arXiv ID: 2603.03800

1️⃣ 一句话总结

arXiv ID: 2602.20527

1️⃣ 一句话总结

arXiv ID: 2602.15206

1️⃣ 一句话总结

arXiv ID: 2601.10201

1️⃣ 一句话总结

arXiv ID: 2508.18966

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.15181 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12831 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03800 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20527 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10201 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18966 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.15181

arXiv ID: 2605.12831

arXiv ID: 2603.03800

arXiv ID: 2602.20527

arXiv ID: 2602.15206

arXiv ID: 2601.10201

arXiv ID: 2508.18966