The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

📄 Abstract - The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Prior work reports conflicting results on query diversity in synthetic data generation for dense retrieval. We identify this conflict and design Q-D metrics to quantify diversity's impact, making the problem measurable. Through experiments on 4 benchmark types (31 datasets), we find query diversity especially benefits multi-hop retrieval. Deep analysis on multi-hop data reveals that diversity benefit correlates strongly with query complexity ($r$$\geq$0.95, $p$$<$0.05 in 12/14 conditions), measured by content words (CW). We formalize this as the Complexity-Diversity Principle (CDP): query complexity determines optimal diversity. CDP provides actionable thresholds (CW$>$10: use diversity; CW$<$7: avoid it). Guided by CDP, we propose zero-shot multi-query synthesis for multi-hop tasks, achieving state-of-the-art performance.

多查询的智慧：稠密检索器训练的复杂度-多样性原则 / The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

1️⃣ 一句话总结

这篇论文发现，在训练稠密检索模型时，使用多样化的合成查询是否有益，取决于查询本身的复杂程度：对于复杂查询（如多步推理问题），多样性至关重要；而对于简单查询，多样性反而有害，并据此提出了一个可操作的指导原则和新的数据合成方法，在多步推理任务上取得了领先效果。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

获取最新论文摘要