arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Iterative Learning Control-Informed Reinforcement Learning for Batch Process Control 03-18

arXiv ID: 2602.16548

arXiv 提交日期: 2026-02-18

biology model training machine learning rna inverse design reinforcement learning diffusion models 3d structure graph neural networks

RIDER：基于强化学习引导扩散模型的3D RNA逆向设计 / RIDER: 3D RNA Inverse Design with Reinforcement Learning-Guided Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为RIDER的新方法，它利用强化学习来指导扩散模型，直接根据目标三维结构来设计RNA序列，从而大幅提升了生成结构的准确性，并找到了与天然序列不同的新设计。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16699

arXiv 提交日期: 2026-02-18

llm agents model evaluation sequential decision-making cost-benefit tradeoff exploration strategies uncertainty calibration reinforcement learning

先校准后行动：大语言模型智能体中的成本感知探索 / Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

1️⃣ 一句话总结

这篇论文提出了一种名为‘先校准后行动’的新方法，通过让大语言模型在执行任务时（如信息检索或编程）明确权衡探索环境的成本与结果的不确定性，从而帮助它们做出更优的决策，比如决定何时停止测试代码并提交最终答案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16704

arXiv 提交日期: 2026-02-18

llm model training natural language processing fast weight architectures long-context modeling reinforcement learning next-sequence prediction policy optimization

基于下一序列预测的强化快速权重 / Reinforced Fast Weights with Next-Sequence Prediction

1️⃣ 一句话总结

这篇论文提出了一个名为REFINE的强化学习框架，通过训练模型预测整个后续序列而非单个词，有效解决了现有快速权重模型在长文本理解中语义连贯性不足的问题，从而显著提升了其在多种长上下文任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15640

arXiv 提交日期: 2026-02-17

systems reinforcement learning agents semantic communication human-in-the-loop latency control constrained markov decision process radio access network

面向语义通信的延迟感知人在环路强化学习 / Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications

1️⃣ 一句话总结

这篇论文提出了一个结合人类反馈和延迟控制的强化学习框架，用于在保证严格时间要求的前提下，优化语义通信系统的传输质量和资源使用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16063

arXiv 提交日期: 2026-02-17

multi-agents reinforcement learning systems energy markets decentralized systems cooperative learning simulation framework grid stability

MARLEM：一个用于去中心化本地能源市场中隐性合作研究的多智能体强化学习仿真框架 / MARLEM: A Multi-Agent Reinforcement Learning Simulation Framework for Implicit Cooperation in Decentralized Local Energy Markets

1️⃣ 一句话总结

这篇论文提出了一个开源的多智能体强化学习仿真框架，通过让每个能源交易智能体在决策时参考系统整体表现，使它们能在不直接沟通的情况下自发协作，从而提升去中心化能源市场的效率和电网稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15564

arXiv 提交日期: 2026-02-17

llm natural language processing systems text-to-sql reinforcement learning adaptive workflows dynamic inference reasoning

超越静态流程：学习面向文本到SQL的动态工作流 / Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

1️⃣ 一句话总结

这篇论文提出了一个名为SquRL的强化学习框架，它能让大型语言模型在文本转SQL任务中动态地选择并组合不同的处理步骤，从而比固定的静态方法更能适应复杂和陌生的查询，显著提升了实际应用中的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15827

arXiv 提交日期: 2026-02-17

robotics agents systems humanoid locomotion motion matching reinforcement learning perception parkour

感知型人形机器人跑酷：通过运动匹配链接动态人类技能 / Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

1️⃣ 一句话总结

这篇论文提出了一种让仿人机器人像人类一样自主完成复杂跑酷动作的方法，它通过组合人类动作片段并训练机器人根据实时深度感知自动选择跨越、攀爬等技能，成功让机器人在真实环境中完成了高难度障碍挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15620

arXiv 提交日期: 2026-02-17

llm reinforcement learning model training policy optimization training stability spurious tokens mathematical reasoning fine-tuning

STAPO：通过抑制罕见伪标记来稳定大语言模型的强化学习训练 / STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

1️⃣ 一句话总结

这篇论文发现大语言模型强化学习训练不稳定的根源是极少数‘伪标记’，并提出了STAPO方法，通过选择性屏蔽这些标记的梯度更新，有效提升了训练稳定性和模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14559

arXiv 提交日期: 2026-02-16

multi-agents reinforcement learning agents dynamic population agent spawning fluid-agent games multi-agent rl population adaptation

流体智能体强化学习 / Fluid-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘流体智能体’的新框架，让强化学习中的智能体能够像细胞分裂或公司拆分部门一样，根据环境需求动态地创建或调整智能体数量，从而解决传统多智能体强化学习中智能体数量固定不变的限制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15206

arXiv 提交日期: 2026-02-16

reinforcement learning machine learning model training reward learning variational inference multi-feedback bayesian inference imitation learning

MAVRL：通过摊销变分推断从多种反馈类型中学习奖励函数 / MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference

1️⃣ 一句话总结

这篇论文提出了一种名为MAVRL的新方法，能够像侦探综合多种线索一样，将人类提供的演示、比较、评分和停止等不同形式的反馈统一起来，自动学习出更准确、更鲁棒的奖励函数，从而帮助AI智能体更好地理解任务并做出决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.16548

1️⃣ 一句话总结

arXiv ID: 2602.16699

1️⃣ 一句话总结

arXiv ID: 2602.16704

1️⃣ 一句话总结

arXiv ID: 2602.15640

1️⃣ 一句话总结

arXiv ID: 2602.16063

1️⃣ 一句话总结

arXiv ID: 2602.15564

1️⃣ 一句话总结

arXiv ID: 2602.15827

1️⃣ 一句话总结

arXiv ID: 2602.15620

1️⃣ 一句话总结

arXiv ID: 2602.14559

1️⃣ 一句话总结

arXiv ID: 2602.15206

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.16548 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16699 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16704 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15640 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16063 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15564 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15620 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14559 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15206 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.16548

arXiv ID: 2602.16699

arXiv ID: 2602.16704

arXiv ID: 2602.15640

arXiv ID: 2602.16063

arXiv ID: 2602.15564

arXiv ID: 2602.15827

arXiv ID: 2602.15620

arXiv ID: 2602.14559

arXiv ID: 2602.15206