arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Policy-as-Data: Learning Generalizable HOI Diffusion Models from Simulated Physics 06-23

arXiv ID: 2606.18803

arXiv 提交日期: 2026-06-17

llm systems user profiling ride-hailing data pipeline reinforcement learning fine-tuning

ProfiLLM：面向工业网约车调度的效用对齐智能用户画像系统 / ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

1️⃣ 一句话总结

本文提出了一种名为ProfiLLM的系统，它利用大语言模型作为智能数据分析师，从海量网约车平台日志中自动提取司机的行为偏好（如避开某些区域），并生成对实际派单效果有用的用户画像，最终在滴滴的线上系统中显著提升了订单完成率和交易额。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18844

arXiv 提交日期: 2026-06-17

llm reinforcement learning self-distillation reasoning error correction policy optimization trajectory construction

从自身错误中学习：构建可学习的微反思轨迹用于自我蒸馏 / Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

1️⃣ 一句话总结

本文提出了一种名为TAPO的新方法，通过让大语言模型在强化学习中对同一问题同时生成正确和错误的回答，并利用这种对比信息构建精细的修正训练轨迹，从而更准确地定位和纠正模型自身的推理错误，在多项数学推理测试中取得了比现有方法更稳定的性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18961

arXiv 提交日期: 2026-06-17

machine learning biology reinforcement learning protein language models reward optimization unsupervised learning biomolecular design rlhf

成为你自己的老师：通过无监督奖励优化引导蛋白质语言模型 / Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

1️⃣ 一句话总结

本文提出了一种无需人工标注或实验反馈的方法，让蛋白质语言模型通过自身生成的样本和内置的奖励信号（结合模型不确定性和语义一致性）进行自我优化，从而在生成具有特定功能的新蛋白质序列时，达到接近有监督方法的性能，大幅降低了生物分子设计的成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.16517

arXiv 提交日期: 2026-06-15

biology llm model training post-training generalization reinforcement learning supervised fine-tuning over-specialization

后训练如何塑造生物推理模型 / How Post-Training Shapes Biological Reasoning Models

1️⃣ 一句话总结

本文通过对比实验发现，针对生物数据的推理模型在后期训练中，不同阶段（持续预训练、监督微调、强化学习）对领域内和领域外性能的影响各不相同，其中强化学习能在监督微调导致的过度专业化后部分恢复泛化能力，因此最佳策略是减少监督微调、增加强化学习投入。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.15576

arXiv 提交日期: 2026-06-14

llm reinforcement learning model training credit assignment self-distillation reasoning chain-of-thought verifiable reward

在分叉点定位信用：基于路径条件的自蒸馏方法提升大语言模型推理能力 / Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为“回溯自蒸馏”的新方法，通过让模型在训练过程中参考同一批中成功的推理路径，而不是仅仅依赖最终答案，从而更精准地识别并强化推理链条中导致成功的关键决策点，显著提升了数学和代码推理任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.15441

arXiv 提交日期: 2026-06-13

llm agents security prompt injection defense chain-of-thought reinforcement learning adversarial attack

基于推理的任务对齐：对抗自适应提示注入攻击的防御方法 / Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment

1️⃣ 一句话总结

本文提出一种名为RETA的训练方法，通过让AI助手在每次执行任务时先进行逻辑推理，判断外来指令是否与用户原始任务一致，从而有效抵御那些经过专门优化的复杂注入攻击，将攻击成功率控制在10%以下，同时保持较好的任务性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.15301

arXiv 提交日期: 2026-06-13

reinforcement learning machine learning theory deep reinforcement learning lattice reduction self-play monte carlo tree search generalization

通过自我对弈发现格基约简策略 / Discovering Lattice Reduction Strategies via Self-Play

1️⃣ 一句话总结

本工作将格基约简问题建模为单人马尔可夫决策过程，并利用类似AlphaZero的深度强化学习方法，训练出一个名为DeltaStar的神经网络策略；该策略仅在8维小规模格上训练，就能在无需重新训练的情况下，零样本推广到更高维度的格，并比经典的LLL算法使用更少的操作步骤。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12816

arXiv 提交日期: 2026-06-11

reinforcement learning machine learning systems quantum circuit routing graph reinforcement learning proximal policy optimization calibration-aware fidelity optimization

基于图强化学习的校准感知量子电路路由方法 / Graph Reinforcement Learning for Calibration-Aware Quantum Circuit Routing

1️⃣ 一句话总结

该论文提出了一种利用图强化学习和当天校准数据的量子电路路由方法，能够避开性能差的耦合器，从而在噪声环境中显著提升电路保真度，优于传统仅关注门数量的路由策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13604

arXiv 提交日期: 2026-06-11

reinforcement learning systems machine learning multi-agent offline rl dispatch optimization marketplace deployment

基于延迟市场反馈的多智能体强化学习：面向三方配送的权重自适应方法 / Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch

1️⃣ 一句话总结

本文提出了一种在DoorDash外卖平台上实际部署的强化学习系统，它利用延迟的运营数据（如配送速度和骑手利用率）来动态调整配送决策中的目标权重，在不影响用户体验的前提下，提升批次配送效率并降低骑手的时间成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13677

arXiv 提交日期: 2026-06-11

robotics reinforcement learning systems dexterous manipulation articulated tools sim-to-real motion planning grasping

Mana：灵巧操纵铰接工具 / Mana: Dexterous Manipulation of Articulated Tools

1️⃣ 一句话总结

本文提出了一个名为Mana的通用仿真到现实框架，通过将灵巧操作问题转化为动画生成问题，实现了对剪刀、钳子等各类铰接工具的零样本灵活抓取和操作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18803

1️⃣ 一句话总结

arXiv ID: 2606.18844

1️⃣ 一句话总结

arXiv ID: 2606.18961

1️⃣ 一句话总结

arXiv ID: 2606.16517

1️⃣ 一句话总结

arXiv ID: 2606.15576

1️⃣ 一句话总结

arXiv ID: 2606.15441

1️⃣ 一句话总结

arXiv ID: 2606.15301

1️⃣ 一句话总结

arXiv ID: 2606.12816

1️⃣ 一句话总结

arXiv ID: 2606.13604

1️⃣ 一句话总结

arXiv ID: 2606.13677

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.16517 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.15576 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.15441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.15301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12816 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13677 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18803

arXiv ID: 2606.18844

arXiv ID: 2606.18961

arXiv ID: 2606.16517

arXiv ID: 2606.15576

arXiv ID: 2606.15441

arXiv ID: 2606.15301

arXiv ID: 2606.12816

arXiv ID: 2606.13604

arXiv ID: 2606.13677