arXiv ID:
2606.13604
基于延迟市场反馈的多智能体强化学习:面向三方配送的权重自适应方法 / Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch
1️⃣ 一句话总结
本文提出了一种在DoorDash外卖平台上实际部署的强化学习系统,它利用延迟的运营数据(如配送速度和骑手利用率)来动态调整配送决策中的目标权重,在不影响用户体验的前提下,提升批次配送效率并降低骑手的时间成本。