← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

中英文论文题目：
ReasonRank: 推理密集型段落排序的自动化数据合成与两阶段训练框架
ReasonRank: Automated Data Synthesis and Two-Stage Training for Reasoning-Intensive Passage Ranking

1️⃣ 一句话总结

ReasonRank 提出了一种自动化生成推理密集型训练数据的框架，并结合两阶段训练（监督微调+强化学习）优化段落排序模型，显著提升了复杂查询场景下的排序性能，在多个基准测试（如BRIGHT、R2MED）上达到SOTA水平。

2️⃣ 论文创新点

1. 自动化推理数据合成框架

创新点：通过多领域查询（复杂QA、数学、编程等）自动生成高质量训练数据，结合自一致性过滤和硬负样本挖掘保证数据质量。
改进：传统方法依赖人工标注或简单合成数据，而ReasonRank通过领域适配和动态过滤解决数据稀缺与噪声问题。
意义：为推理密集型排序任务提供了可扩展的数据生成方案，减少对人工标注的依赖。

2. 两阶段训练框架（SFT+RL）

创新点：冷启动监督微调（SFT）学习基础推理能力，强化学习（RL）阶段通过多视角排序奖励优化列表排序性能。
改进：传统RL排序模型多依赖单一指标（如NDCG@10），而ReasonRank结合NDCG@10、Recall@10和RBO（Rank-Biased Overlap）设计复合奖励。
意义：分阶段训练兼顾模型稳定性与性能，多视角奖励更贴合实际排序需求。

3. 高效推理与部署优化

创新点：采用单推理链处理多段落、滑动窗口策略和GRPO（Group-wise Reward Policy Optimization）算法，提升推理速度。
改进：相比逐点推理方法（如Rank1），ReasonRank延迟降低2-2.7倍，且支持全列表排序。
意义：平衡性能与效率，增强实际应用可行性。

3️⃣ 主要结果与价值

实验结果亮点

性能优势：在BRIGHT、R2MED和BEIR基准上，ReasonRank（32B）NDCG@10指标显著优于基线（如DeepSeek-R1、RankZephyr），最高提升7.05分。
消融实验：移除SFT或RL分别导致性能下降7.05和2.59点，验证两阶段训练的必要性。
跨领域泛化：在编程、数学、医学等多领域任务中均表现稳健。

实际应用价值

检索增强场景：与混合检索器（RaDeR+BM25）结合，进一步将排序性能从39.08提升至40.80。
可解释性：通过<think>和<answer>标签结构化输出推理过程，适合医疗、法律等高要求领域。
开源潜力：数据合成框架和训练代码可复用于其他推理密集型任务（如问答、代码生成）。

4️⃣ 术语表

ReasonRank：本文提出的推理密集型段落重排序模型，支持两阶段训练（SFT+RL）。
BRIGHT/R2MED/BEIR：分别针对复杂推理、医学检索和多领域检索的评测基准。
NDCG@10：归一化折损累积增益，衡量前10个结果排序质量的指标。
RBO（Rank-Biased Overlap）：排序列表相似性评估指标。
GRPO（Group-wise Reward Policy Optimization）：分组归一化强化学习优化算法。
Listwise Ranking：直接对段落列表进行重排序的方法（对比Pointwise/Pairwise）。
自一致性过滤：通过阈值（α=0.4）自动过滤低质量合成数据的机制。

总结特点：
- 问题驱动：直击推理数据稀缺和排序模型泛化性不足的痛点。
- 技术整合：融合数据合成、多任务训练和高效推理设计，形成完整解决方案。
- 开源友好：方法细节（如LoRA训练、DeepSpeed优化）便于社区复现和扩展。

📄 打开原文 PDF