arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.20150

🤖 系统

11-06 16:34

llm agents

conversational recommendation reinforcement learning alignment behavior cloning ranking optimization

📄 论文总结

基于LLM的对话推荐系统训练框架ConvRec-R1 / ConvRec-R1: A Training Framework for LLM-based Conversational Recommendation Systems

1️⃣ 一句话总结

该论文提出了ConvRec-R1两阶段训练框架，通过行为克隆数据构建和Rank-GRPO强化学习方法，解决了基于大语言模型的对话推荐系统中的对齐问题，显著提升了推荐质量和训练效率。

2️⃣ 论文创新点

1. ConvRec-R1两阶段训练框架

创新点：端到端的训练框架，包含行为克隆数据构建和强化学习优化两个阶段，专门用于基于LLM的对话推荐系统
区别/改进：解决了现有方法需要高质量人工演示数据的问题，以及传统强化学习方法在排名输出任务中的根本性错位问题
意义：显著提升训练效率和推荐质量，比GRPO基线收敛更快且获得更好的召回率和NDCG指标

2. Rank-GRPO方法

创新点：针对排名输出任务的GRPO扩展方法，以排名而非token或序列为处理单元
区别/改进：消除了非因果信用分配问题，引入基于几何平均的排名级重要性概率以稳定策略更新
意义：稳定策略更新，提高排名质量，解决了GRPO在排名任务中的错位问题

3. Remap–Reflect–Adjust流程

创新点：构建行为克隆数据集的三步方法，包括映射到目标目录空间、上下文判断优化排名质量、校正残差流行度偏差
区别/改进：从强大的黑盒LLM生成高质量、基于目录的演示
意义：为RL训练提供有效的预热初始化

3️⃣ 主要结果与价值

结果亮点

SFT阶段验证损失在800步后趋于稳定，高质量SFT数据使目录内推荐比例迅速超过99%
Rank-GRPO在训练和验证集上表现优于GRPO和GSPO，特别是在列表尾部位置有更大改进
0.5B模型NDCG@20指标相比零样本模型提升30倍
ConvRec-R1在多个LLM骨干网络上都取得优于或与GPT-4o相当的性能

实际价值

相比CRAG方法大幅降低计算开销，每次推荐无需5-7次GPT-4o API调用
使小型开源LLM能直接产生高质量推荐，平衡了性能与部署延迟和计算开销
支持灵活的多样性等目标，增强了推荐系统的适应性和性能

4️⃣ 术语表

ConvRec-R1：用于端到端训练LLM-based CRS的两阶段框架，包含SFT和RL两个训练阶段
Rank-GRPO：针对排名输出任务的强化学习对齐算法，以排名为处理单元进行策略更新
Remap–Reflect–Adjust：三步精炼管道，用于将教师LLM的原始推荐映射到目标目录空间，并通过上下文反思和偏差调整生成高质量的监督微调演示数据
GRPO：Group Relative Policy Optimization，一种利用响应组间相对奖励来估计优势的强化学习方法
DCG@N：Discounted Cumulative Gain at N，基于排名的评价指标，考虑项目在推荐列表中的位置权重
NDCG@20：评估推荐系统性能的指标，关注前20个推荐项目的质量
CRAG：一种对话推荐系统方法，使用GPT-4o进行项目提取、反思和重排序，每次推荐需要5-7次API调用
REDDIT-V2：用于会话推荐的大规模公开基准数据集，包含约40万条多轮对话会话

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.20150

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. ConvRec-R1两阶段训练框架

2. Rank-GRPO方法

3. Remap–Reflect–Adjust流程

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.20150 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. ConvRec-R1两阶段训练框架

2. Rank-GRPO方法

3. Remap–Reflect–Adjust流程

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.20150