arXiv ID:
2603.15434
arXiv 提交日期: 2026-03-16
倾听回声:基于标量-语言混合强化学习的用户反应感知策略优化 / Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种新的情感支持对话系统优化方法,它不再依赖专家定义的单一评分,而是通过模拟用户在对话中的实时反应来生成更丰富的语言反馈,从而更有效地引导对话走向积极的情感转变。