arXiv ID:
2606.21740
arXiv 提交日期: 2026-06-19
训练编排器:一种基于监督学习的端到端PDDL规划方法,结合大语言模型智能体 / Training the Orchestrator: A Supervised Approach to End-to-End PDDL Planning with LLM Agents
1️⃣ 一句话总结
本文提出了一种名为HALO的新方法,通过利用验证器提供的正确决策轨迹作为监督信号,训练一个小型语言模型作为编排器,代替昂贵的前沿大模型来协调多个专业修复智能体,从而在保持甚至提升规划成功率的同时,将规划成本降低数十倍,为实现高效且可靠的端到端形式化规划提供了实用方案。