arXiv ID:
2606.09293
arXiv 提交日期: 2026-06-08
一个模型,多个目标:面向电商对话系统的自适应多目标学习 / One Model, Multiple Goals: Adaptive Multi-Objective Learning for E-commerce Dialogue Systems
1️⃣ 一句话总结
本文提出了一种名为MORE的自适应多目标强化学习框架,能够在电商对话系统中同时优化推理准确性和语言自然度,通过将推理功能作为约束条件而非直接混合奖励来解决多目标优化中的不稳定性问题,并在字节跳动真实业务和公开数据集上显著提升了转化率和用户满意度。