📄 论文总结
大语言模型引导的分层检索 / LLM-guided Hierarchical Retrieval
1️⃣ 一句话总结
这篇论文提出了一个名为LATTICE的分层检索框架,通过将文档库组织成语义树结构,并利用大语言模型进行导航,实现了对复杂查询的高效检索,在零样本设置下达到了最先进的性能。
请先 登录 后再提交论文
大语言模型引导的分层检索 / LLM-guided Hierarchical Retrieval
这篇论文提出了一个名为LATTICE的分层检索框架,通过将文档库组织成语义树结构,并利用大语言模型进行导航,实现了对复杂查询的高效检索,在零样本设置下达到了最先进的性能。
RLFR:基于流环境扩展大语言模型的强化学习 / RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
这项研究提出了一种名为RLFR的新方法,通过利用模型潜在空间中的流场来构建奖励信号,从而更有效地引导大语言模型在推理任务中进行探索和学习,无需依赖高成本的标注数据。
LightReasoner:小语言模型能否教会大语言模型推理? / LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
这项研究提出了一种名为LightReasoner的新方法,通过对比大小语言模型在推理过程中的行为差异,让小模型帮助大模型识别并强化其关键推理优势,从而在显著减少计算资源和数据需求的同时,大幅提升大模型的数学推理能力。
混合强化:当奖励稀疏时,密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
这篇论文提出了一种名为HERO的混合强化学习框架,通过结合确定性验证器的稳定性和奖励模型的精细反馈,有效提升大语言模型在数学推理等任务中的性能,尤其在奖励信号稀疏或答案难以验证的情况下表现更优。
PuzzlePlex:基于谜题评估基础模型的推理与规划能力 / PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
这篇论文提出了一个名为PuzzlePlex的多样化谜题测试平台,用于系统评估基础模型在复杂环境中的推理和规划能力,发现基于指令的推理模型表现更优,而基于代码的执行方式虽具挑战但扩展性更强。
连接推理与学习:利用复杂度分布外泛化揭示幻觉 / Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
这篇论文提出了一个名为'复杂度分布外泛化'的新框架,用于定义和衡量人工智能的推理能力,强调当测试问题需要比训练数据更复杂的解决方案时,模型仍能保持性能,从而区分真正的推理与简单的模式识别。
重新思考思维令牌:将大语言模型作为改进操作器 / Rethinking Thinking Tokens: LLMs as Improvement Operators
这篇论文提出了一种名为PDR的并行提炼优化推理方法,让大语言模型通过并行生成草稿并迭代优化的方式,在降低计算成本和延迟的同时,反而比传统长链思维推理获得了更高的数学解题准确率。
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。
思维增强预训练 / Thinking Augmented Pre-training
这篇论文提出了一种通过自动生成思维轨迹来增强文本数据的方法,能够将大语言模型预训练的数据效率提升三倍,并在多个推理任务上显著提升模型性能。
单流策略优化 / Single-stream Policy Optimization
本文提出了一种名为SPO的单流策略优化方法,通过使用持久化价值跟踪器和全局优势归一化,解决了现有分组方法在训练大语言模型时存在的不稳定和效率低下的问题,从而实现了更平滑的收敛和更高的推理精度。