arXiv最新AI论文速览速学

🔍

标签: #inverse reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 117 72小时内新更新论文 72h更新 255 最新: Quantifying Potential Observation Missingness in Inverse Reinforcement Learning 05-18

arXiv ID: 2605.12831

arXiv 提交日期: 2026-05-12

reinforcement learning machine learning medical inverse reinforcement learning missing observations reward learning human behavior modeling healthcare

逆强化学习中潜在观测缺失的量化方法 / Quantifying Potential Observation Missingness in Inverse Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种新方法，用于检测和量化行为数据中可能存在的观测缺失问题，帮助逆强化学习模型在医疗等实际场景中更准确地还原决策者的真实意图，避免因数据不完整而得出误导性结论。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24280

arXiv 提交日期: 2026-04-27

reinforcement learning financial inverse reinforcement learning relative entropy reward function investor behavior data sparsity

投资者偏好的无模型推断：一种基于相对熵逆强化学习的方法 / Model-Free Inference of Investor Preferences: A Relative Entropy IRL Approach

1️⃣ 一句话总结

本文提出了一种无需知道市场变化规律的新方法，通过观察投资者的实际行动来反向推导其背后的投资偏好和决策目标，并使用邻近点技术解决了实际数据不足的问题，最后还设计了一套统计检验来验证推断结果的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14844

arXiv 提交日期: 2026-02-16

agents reinforcement learning model training inverse reinforcement learning ai alignment reward modeling human-in-the-loop safety

无交互逆强化学习：一种面向持久对齐的数据中心框架 / Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘无交互逆强化学习’的新方法，将AI安全目标与具体策略解耦，通过构建一个可检查、可编辑的通用奖励模型，并结合人工参与的迭代优化循环，将AI对齐从一次性的消耗转变为可持久验证的工程资产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04518

arXiv 提交日期: 2026-02-04

agents theory machine learning value system learning inverse reinforcement learning preference-based learning multi-objective mdps ethical ai

基于偏好学习和逆强化学习的智能体价值系统学习 / Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过观察和人类演示来自动学习智能体的价值系统，从而帮助它们在互动中做出符合伦理和道德原则的决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.12831

1️⃣ 一句话总结

arXiv ID: 2604.24280

1️⃣ 一句话总结

arXiv ID: 2602.14844

1️⃣ 一句话总结

arXiv ID: 2602.04518

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.12831 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24280 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04518 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.12831

arXiv ID: 2604.24280

arXiv ID: 2602.14844

arXiv ID: 2602.04518