← 返回列表

菜单

🤖 系统
📄 Abstract - ConvRec-R1: A Training Framework for LLM-based Conversational Recommendation Systems
正在获取摘要...
顶级标签: llm agents
详细标签: conversational recommendation reinforcement learning alignment behavior cloning ranking optimization 或 搜索:

📄 论文总结

基于LLM的对话推荐系统训练框架ConvRec-R1 / ConvRec-R1: A Training Framework for LLM-based Conversational Recommendation Systems


1️⃣ 一句话总结

该论文提出了ConvRec-R1两阶段训练框架,通过行为克隆数据构建和Rank-GRPO强化学习方法,解决了基于大语言模型的对话推荐系统中的对齐问题,显著提升了推荐质量和训练效率。


2️⃣ 论文创新点

1. ConvRec-R1两阶段训练框架

2. Rank-GRPO方法

3. Remap–Reflect–Adjust流程


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF