arXiv ID:
2603.01481
arXiv 提交日期: 2026-03-02
协调多轮强化学习中的密集与稀疏信号:面向工业销售助手的双视野信用分配 / Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents
1️⃣ 一句话总结
这篇论文提出了一种名为DuCA的新方法,通过分别处理对话中每轮的具体要求和整个销售过程的长期目标,有效解决了工业销售AI助手在训练时难以同时兼顾语言流畅性和最终成交率的难题,从而显著提升了销售效果和对话质量。