arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions 05-03

arXiv ID: 2603.24372

arXiv 提交日期: 2026-03-25

llm natural language processing model training autoformalization cycle consistency reinforcement learning fine-tuning mathematical reasoning

通过循环一致性微调改进Lean4自动形式化 / Improving Lean4 Autoformalization via Cycle Consistency Fine-tuning

1️⃣ 一句话总结

这篇论文通过一种名为‘循环一致性奖励’的强化学习方法，显著提升了AI将自然语言数学文本自动翻译成Lean4形式化证明语言的准确性和语义保持能力，比传统的监督学习方法效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24503

arXiv 提交日期: 2026-03-25

model training systems robotics model predictive control neural networks safety reinforcement learning control systems

迈向基于学习的非线性模型预测控制安全化：通过循环神经网络建模 / Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为Sequential-AMPC的新方法，它利用循环神经网络结构来高效学习并近似复杂的非线性模型预测控制器，同时通过在线安全机制确保控制系统的稳定性和安全性，从而在减少计算负担和训练数据需求的同时，实现了比传统方法更好的控制性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22922

arXiv 提交日期: 2026-03-24

llm agents reinforcement learning query suggestion cold-start problem intrinsic reward e-commerce iterative optimization

质量优于点击：面向冷启动电商查询建议的、基于内在质量的迭代强化学习 / Quality Over Clicks: Intrinsic Quality-Driven Iterative Reinforcement Learning for Cold-Start E-Commerce Query Suggestion

1️⃣ 一句话总结

这篇论文提出了一个名为Cold-EQS的新框架，它通过使用可回答性、事实性和信息增益等内在质量指标作为强化学习的奖励，来持续优化电商对话系统在冷启动场景下的查询建议质量，从而摆脱了对大量点击数据的依赖，并显著提升了在线用户参与度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22847

arXiv 提交日期: 2026-03-24

multi-modal model training agents multimodal reasoning reinforcement learning chain-of-thought policy optimization visual grounding

重新思考多模态思维链的令牌级策略优化 / Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

1️⃣ 一句话总结

这篇论文提出了一种名为PEPO的新方法，通过精细分析多模态推理过程中每个令牌的动态特性，并利用感知先验和探索性机制来优化模型，从而在多类视觉语言推理任务上稳定且显著地提升了性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22892

arXiv 提交日期: 2026-03-24

multi-modal reinforcement learning agents offline rl vision-language model knowledge-guided generalization imaginary rollouts

VLGOR：面向通用智能体的视觉-语言知识引导的离线强化学习 / VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents

1️⃣ 一句话总结

该论文提出了一个名为VLGOR的新框架，它通过结合视觉和语言知识来生成高质量的模拟训练数据，从而显著提升了智能体在未见过的任务中理解和执行语言指令的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23500

arXiv 提交日期: 2026-03-24

multi-modal model training reinforcement learning interleaved generation policy optimization reasoning-driven generation flow matching visual synthesis

UniGRPO：面向推理驱动视觉生成的统一策略优化 / UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

1️⃣ 一句话总结

这篇论文提出了一个名为UniGRPO的统一强化学习框架，通过联合优化文本推理和图像生成策略，让AI模型在生成图片前先进行逻辑推理，从而显著提升了图像生成的质量，为未来开发能交替生成文本和图像的复杂模型打下了坚实基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22813

arXiv 提交日期: 2026-03-24

reinforcement learning agents theory preference inference multi-objective rl contextual shifts dynamic preferences sequential decision-making

学习当下重要之事：情境变化下的动态偏好推断 / Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts

1️⃣ 一句话总结

这篇论文提出了一种名为‘动态偏好推断’的新方法，让AI系统能够像人类一样，根据环境变化动态调整自己的目标优先级，从而在任务目标突然改变时表现得更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22384

arXiv 提交日期: 2026-03-23

reinforcement learning agents theory temporal control adaptive timing hyperbolic geometry credit assignment decision timing

学习何时行动：具有预测性时间结构的区间感知强化学习 / Learning When to Act: Interval-Aware Reinforcement Learning with Predictive Temporal Structure

1️⃣ 一句话总结

这篇论文提出了一种新的智能体决策方法，它不仅能决定‘做什么’，还能通过预测未来状态的不确定性来自主学习‘何时行动’的最佳时机，从而显著提高行动效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22563

arXiv 提交日期: 2026-03-23

reinforcement learning model training privacy differential privacy human feedback reward modeling privacy-preserving alignment

基于解耦奖励建模的隐私保护人类反馈强化学习 / Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Modeling

1️⃣ 一句话总结

这篇论文提出了一种新的隐私保护方法，通过只对学习用户偏好的‘奖励模型’部分进行隐私处理，来训练大型语言模型，从而在保护用户敏感数据的同时，有效提升了模型与人类价值观对齐的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21846

arXiv 提交日期: 2026-03-23

agents natural language processing model training explainable ai knowledge graphs reinforcement learning scientific discovery adaptive explanations

基于知识图谱与智能体角色实现自适应科学解释 / Agentic Personas for Adaptive Scientific Explanations with Knowledge Graphs

1️⃣ 一句话总结

这篇论文提出了一种利用强化学习和模拟专家思维方式的智能体角色，来为知识图谱生成更贴合不同专家认知偏好的自适应科学解释方法，在药物发现等复杂领域中既能保持高预测性能，又大幅减少了对真人反馈的依赖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.24372

1️⃣ 一句话总结

arXiv ID: 2603.24503

1️⃣ 一句话总结

arXiv ID: 2603.22922

1️⃣ 一句话总结

arXiv ID: 2603.22847

1️⃣ 一句话总结

arXiv ID: 2603.22892

1️⃣ 一句话总结

arXiv ID: 2603.23500

1️⃣ 一句话总结

arXiv ID: 2603.22813

1️⃣ 一句话总结

arXiv ID: 2603.22384

1️⃣ 一句话总结

arXiv ID: 2603.22563

1️⃣ 一句话总结

arXiv ID: 2603.21846

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.24372 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24503 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22922 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22847 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23500 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22813 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22384 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21846 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.24372

arXiv ID: 2603.24503

arXiv ID: 2603.22922

arXiv ID: 2603.22847

arXiv ID: 2603.22892

arXiv ID: 2603.23500

arXiv ID: 2603.22813

arXiv ID: 2603.22384

arXiv ID: 2603.22563

arXiv ID: 2603.21846