🤖 系统
11-30 17:44
📄 论文总结
Rank-GRPO:使用强化学习训练基于大语言模型的对话推荐系统 / Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为ConvRec-R1的两阶段框架,通过强化学习方法有效解决了大语言模型在对话推荐任务中常出现的推荐列表质量不稳定和格式错误问题,显著提升了推荐的准确性和训练效率。