arXiv最新AI论文速览速学

🔍

标签: #monte carlo tree search ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Discovering Lattice Reduction Strategies via Self-Play 06-22

arXiv ID: 2606.15301

arXiv 提交日期: 2026-06-13

reinforcement learning machine learning theory deep reinforcement learning lattice reduction self-play monte carlo tree search generalization

通过自我对弈发现格基约简策略 / Discovering Lattice Reduction Strategies via Self-Play

1️⃣ 一句话总结

本工作将格基约简问题建模为单人马尔可夫决策过程，并利用类似AlphaZero的深度强化学习方法，训练出一个名为DeltaStar的神经网络策略；该策略仅在8维小规模格上训练，就能在无需重新训练的情况下，零样本推广到更高维度的格，并比经典的LLL算法使用更少的操作步骤。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01708

arXiv 提交日期: 2026-06-01

reinforcement learning agents model evaluation best-action identification minimax tree multi-fidelity tree search monte carlo tree search

随机极小化极大树中的双保真度最优动作识别 / Two-Fidelity Best-Action Identification for Stochastic Minimax Tree

1️⃣ 一句话总结

本文提出了一种名为2FFS的双保真度树搜索算法，该算法在固定置信度的场景下，能够智能地在使用廉价但有偏差的启发式评估与使用昂贵但准确的完整模拟之间动态切换，从而以更少的计算资源高效识别出随机博弈树中的最优动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12294

arXiv 提交日期: 2026-05-12

agents llm systems gui agent knowledge graph monte carlo tree search memory planning

可执行的智能体记忆：面向图形界面智能体的结构化知识图谱 / Executable Agentic Memory for GUI Agent

1️⃣ 一句话总结

本文提出了一种名为“可执行的智能体记忆”的方法，通过构建结构化的知识图谱，将图形界面智能体的操作规划从逐屏思考转变为快速检索和自动执行，从而在长期任务中大幅提升效率、降低成本，并在实际测试中取得了优于现有模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02819

arXiv 提交日期: 2026-05-04

llm knowledge graph model evaluation process reward model monte carlo tree search multi-hop reasoning risk-sensitive reasoning question answering

SCPRM：一种用于知识图谱问答的架构感知累积过程奖励模型 / SCPRM: A Schema-aware Cumulative Process Reward Model for Knowledge Graph Question Answering

1️⃣ 一句话总结

本文提出了一种名为SCPRM的新模型，它在知识图谱问答中通过结合当前推理步骤与目标之间的架构距离来评估推理路径的正确性，从而解决了传统过程奖励模型因容错效应而误判有缺陷推理路径的问题，并在医学、法律等高风险领域取得了更准确和稳健的推理效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12898

arXiv 提交日期: 2026-04-14

llm agents model training hyper-heuristic bi-level optimization genetic algorithm monte carlo tree search code generation

BEAM：面向大语言模型启发式设计的双层记忆自适应算法演化框架 / BEAM: Bi-level Memory-adaptive Algorithmic Evolution for LLM-Powered Heuristic Design

1️⃣ 一句话总结

这篇论文提出了一种名为BEAM的新型智能算法设计框架，它通过双层优化和自适应记忆机制，让大语言模型能更高效地自动设计出性能优越的复杂优化算法，在多个经典问题上显著超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11365

arXiv 提交日期: 2026-04-13

llm model training agents reasoning synthesis contrastive learning monte carlo tree search data efficiency automated reasoning

从对比中学习：基于多样化搜索轨迹合成推理路径 / Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories

1️⃣ 一句话总结

这篇论文提出了一个名为CRPS的新框架，它通过对比分析人工智能搜索过程中成功与失败的路径差异，自动合成高质量的推理训练数据，从而用极少量数据就能训练出泛化能力更强的推理模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01434

arXiv 提交日期: 2026-04-01

theory agents reinforcement learning pomdp monte carlo tree search value of information planning under uncertainty belief space

在POMDP规划中利用信息价值 / Leveraging the Value of Information in POMDP Planning

1️⃣ 一句话总结

这篇论文提出了一种名为VOIMCP的新规划算法，它通过智能判断何时值得处理观测信息来显著提高在不确定环境下的决策效率，从而在有限的计算时间内获得更优的策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24382

arXiv 提交日期: 2026-03-25

llm agents biology molecular optimization evolutionary search interpretable ai monte carlo tree search chemical discovery

MolEvolve：基于大语言模型引导进化搜索的可解释分子优化方法 / MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MolEvolve的新方法，它利用大语言模型引导进化搜索，将分子优化问题转化为一个自主的前瞻性规划任务，从而在提升分子性能的同时，生成易于人类理解的结构优化路径，解决了传统深度学习方法在化学领域缺乏可解释性和难以处理活性陡变的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14410

arXiv 提交日期: 2026-03-15

llm natural language processing aigc story generation monte carlo tree search plot planning long-form generation theme-driven generation

BiT-MCTS：一种基于主题的双向MCTS中文小说生成方法 / BiT-MCTS: A Theme-based Bidirectional MCTS Approach to Chinese Fiction Generation

1️⃣ 一句话总结

这篇论文提出了一种名为BiT-MCTS的新方法，它通过‘先定高潮，再双向扩展’的策略，帮助大语言模型根据开放主题生成结构更完整、情节更连贯、主题更深刻的长篇中文小说。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10512

arXiv 提交日期: 2026-03-11

llm agents model training game ai graph attention monte carlo tree search synthetic data generation weak-to-strong generalization

集成大语言模型与图注意力的资源受限亚马逊棋决策框架 / Resource-constrained Amazons chess decision framework integrating large language models and graph attention

1️⃣ 一句话总结

这篇论文提出了一种在计算资源有限的情况下，通过结合图注意力网络和大语言模型来提升亚马逊棋AI决策能力的新方法，该方法无需依赖大量专家数据，仅利用有噪声的监督信号就能训练出超越其教师模型的强大游戏智能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.15301

1️⃣ 一句话总结

arXiv ID: 2606.01708

1️⃣ 一句话总结

arXiv ID: 2605.12294

1️⃣ 一句话总结

arXiv ID: 2605.02819

1️⃣ 一句话总结

arXiv ID: 2604.12898

1️⃣ 一句话总结

arXiv ID: 2604.11365

1️⃣ 一句话总结

arXiv ID: 2604.01434

1️⃣ 一句话总结

arXiv ID: 2603.24382

1️⃣ 一句话总结

arXiv ID: 2603.14410

1️⃣ 一句话总结

arXiv ID: 2603.10512

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.15301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01708 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12294 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12898 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11365 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01434 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14410 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10512 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.15301

arXiv ID: 2606.01708

arXiv ID: 2605.12294

arXiv ID: 2605.02819

arXiv ID: 2604.12898

arXiv ID: 2604.11365

arXiv ID: 2604.01434

arXiv ID: 2603.24382

arXiv ID: 2603.14410

arXiv ID: 2603.10512