arXiv ID:
2606.23112
基于分歧点偏好学习的多轮工具调用智能体自我进化 / Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning
1️⃣ 一句话总结
本文提出一种名为ToolGraph的新方法,通过构建工具调用关系的拓扑图和基于成功轨迹的权重估计,并结合分歧点偏好的强化学习,使多轮对话中的工具调用智能体能自我改进,在测试中将平均奖励从0.304提升至0.355,性能相对提升16.8%。