arXiv最新AI论文速览速学

🔍

标签: #tree search ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Two-Fidelity Best-Action Identification for Stochastic Minimax Tree 06-02

arXiv ID: 2606.01708

arXiv 提交日期: 2026-06-01

reinforcement learning agents model evaluation best-action identification minimax tree multi-fidelity tree search monte carlo tree search

随机极小化极大树中的双保真度最优动作识别 / Two-Fidelity Best-Action Identification for Stochastic Minimax Tree

1️⃣ 一句话总结

本文提出了一种名为2FFS的双保真度树搜索算法，该算法在固定置信度的场景下，能够智能地在使用廉价但有偏差的启发式评估与使用昂贵但准确的完整模拟之间动态切换，从而以更少的计算资源高效识别出随机博弈树中的最优动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28109

arXiv 提交日期: 2026-05-27

llm reinforcement learning information bottleneck exploration-exploitation tree search online rl reasoning

长期平衡：信息瓶颈驱动的树形策略优化 / Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

1️⃣ 一句话总结

本文针对大语言模型在线强化学习中探索与利用不平衡的问题，提出了一种基于信息瓶颈理论的新指标IB-Score来量化平衡程度，并设计了一种树形采样策略，在相同令牌预算下获得更多训练轨迹，从而显著提升模型在复杂推理任务上的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22809

arXiv 提交日期: 2026-02-26

agents computer vision model evaluation autonomous image editing aesthetic planning tree search closed-loop execution benchmark

PhotoAgent：基于探索性视觉美学规划的智能照片编辑系统 / PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

1️⃣ 一句话总结

这篇论文提出了一个名为PhotoAgent的智能照片编辑系统，它能够像人类一样通过规划多步骤的美学调整方案来自主编辑图片，无需用户一步步给出详细指令，从而显著提升了编辑效果和图像质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07848

arXiv 提交日期: 2026-02-08

multi-agents llm model training code generation reinforcement learning multi-agent collaboration tree search scaling laws

MARTI-MARS²：通过强化学习实现代码生成的多智能体自我搜索扩展 / MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation

1️⃣ 一句话总结

这篇论文提出了一种名为MARTI-MARS²的新框架，它通过强化学习让多个AI智能体像团队一样协作、互相学习和纠正错误，从而显著提升了复杂代码生成任务的性能，并发现智能体之间的策略多样性是提升整体能力的关键。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04767

arXiv 提交日期: 2026-01-08

llm agents reinforcement learning policy optimization tree search multi-turn agents credit assignment exploration

AT$^2$PO：基于树搜索的智能体回合制策略优化 / AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search

1️⃣ 一句话总结

这篇论文提出了一个名为AT$^2$PO的新框架，它通过结合树搜索和回合制学习，有效解决了多轮任务中智能体探索不足、奖励分配困难等关键问题，从而显著提升了智能体在复杂任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.12692

arXiv 提交日期: 2025-12-14

agents llm systems tree search web agents autonomous agents backtracking best-first search

WebOperator：面向网络环境中自主代理的、具备行动感知能力的树搜索框架 / WebOperator: Action-Aware Tree Search for Autonomous Agents in Web Environment

1️⃣ 一句话总结

这篇论文提出了一个名为WebOperator的新框架，它通过结合前瞻性的树搜索、安全的回退机制以及多样化的行动生成，显著提升了AI代理在复杂网页环境中（如在线购物或信息查询）执行任务的成功率和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.08153

arXiv 提交日期: 2025-12-09

model training reinforcement learning multi-modal diffusion models rl alignment sample efficiency tree search credit assignment

TreeGRPO：用于扩散模型在线强化学习后训练的树形优势GRPO / TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为TreeGRPO的新型强化学习方法，它通过将扩散模型的去噪过程构建成一棵搜索树，从而大幅提高了模型根据人类偏好进行训练的效率，实现了更快的训练速度和更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21240

arXiv 提交日期: 2025-09-25

llm agents reinforcement learning tree search policy optimization multi-turn agents process supervision relative advantage

基于树搜索的大语言模型智能体强化学习 / Tree Search for LLM Agent Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种基于树搜索的分组智能体强化学习方法，通过共享路径和构建过程监督信号，有效解决了长期多轮任务中奖励稀疏的问题，并在多项问答任务中优于传统链式方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.17445

arXiv 提交日期: 2025-08-24

llm reinforcement learning model training policy optimization tree search inference efficiency reasoning sampling algorithms

TreePO：基于启发式树建模弥合策略优化效果与推理效率之间的差距 / TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为TreePO的新方法，通过将文本生成视为树状搜索过程，在提升大语言模型推理多样性的同时，大幅降低了计算成本和采样时间，实现了效果与效率的双重优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.01708

1️⃣ 一句话总结

arXiv ID: 2605.28109

1️⃣ 一句话总结

arXiv ID: 2602.22809

1️⃣ 一句话总结

arXiv ID: 2602.07848

1️⃣ 一句话总结

arXiv ID: 2601.04767

1️⃣ 一句话总结

arXiv ID: 2512.12692

1️⃣ 一句话总结

arXiv ID: 2512.08153

1️⃣ 一句话总结

arXiv ID: 2509.21240

1️⃣ 一句话总结

arXiv ID: 2508.17445

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.01708 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28109 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22809 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07848 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.12692 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.08153 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21240 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.17445 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.01708

arXiv ID: 2605.28109

arXiv ID: 2602.22809

arXiv ID: 2602.07848

arXiv ID: 2601.04767

arXiv ID: 2512.12692

arXiv ID: 2512.08153

arXiv ID: 2509.21240

arXiv ID: 2508.17445