arXiv ID:
2605.12755
arXiv 提交日期: 2026-05-12
以状态为中心的决策过程 / State-Centric Decision Process
1️⃣ 一句话总结
本文提出了一种名为SDP的运行时框架,它让智能体在语言环境中(如网页或代码终端)通过自然语言谓词逐步构建出状态空间、观测映射和终止条件,从而弥补了传统强化学习所需的完整决策结构,在多个基准测试上取得了无需训练的最佳结果,并支持错误定位和模块替换等深度分析。