arXiv ID:
2510.08191
免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种无需更新模型参数的轻量级方法,通过将高质量经验知识作为先验信息来指导大语言模型的行为,从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。
免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization
这篇论文提出了一种无需更新模型参数的轻量级方法,通过将高质量经验知识作为先验信息来指导大语言模型的行为,从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。
PEAR:面向高效推理的阶段熵感知奖励机制 / PEAR: Phase Entropy Aware Reward for Efficient Reasoning
这篇论文提出了一种名为PEAR的奖励机制,通过分析模型在不同推理阶段的熵值变化,智能地鼓励模型生成更简洁但依然准确的推理过程,从而在不牺牲性能的前提下显著降低计算成本。
循环利用预训练检查点:通过混合专家模型的正交增长实现高效大语言模型预训练 / Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
这篇论文提出了一种通过扩展已有预训练模型的参数规模来高效复用计算资源的方法,在混合专家模型上实现了深度和宽度的正交增长,相比从头训练在相同计算预算下能显著提升模型性能。
LightReasoner:小语言模型能否教会大语言模型推理? / LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
这项研究提出了一种名为LightReasoner的新方法,通过对比大小语言模型在推理过程中的行为差异,让小模型帮助大模型识别并强化其关键推理优势,从而在显著减少计算资源和数据需求的同时,大幅提升大模型的数学推理能力。
A²Search:基于强化学习的歧义感知问答系统 / A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning
这篇论文提出了一个无需人工标注的智能问答系统A²Search,它能自动识别并处理有多种正确答案的模糊问题,通过强化学习优化模型,在多个问答基准测试中取得了领先性能。
测试时自改进的LLM智能体 / Self-Improving LLM Agents at Test-Time
这篇论文提出了一种让语言模型在测试时自我优化的方法,通过识别自身薄弱环节、自动生成类似训练样本并即时学习,仅用极少量数据就能显著提升模型性能,为构建更智能的自进化AI系统提供了新思路。
LLM4Cell:面向单细胞生物学的大语言与智能体模型综述 / LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
这篇论文首次系统综述了58种应用于单细胞生物学研究的大语言与智能体模型,通过整合多模态数据和评估标准,揭示了该领域在数据整合、模型解释性及伦理安全方面的挑战与进展。
当思考遇见事实:长上下文语言模型的可复用推理 / When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
这篇论文提出了一种名为‘思维模板’的方法,通过复用历史推理过程来指导长上下文语言模型更有效地整合多来源证据,从而提升复杂推理任务的性能,并可将优化后的模板迁移到小型模型中。
基于多臂老虎机反馈学习大语言模型路由:一种策略,多种权衡 / Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs
这篇论文提出了一种名为BaRP的新方法,它通过模拟在线反馈训练一个大语言模型路由系统,让运营商无需重新训练就能在部署时灵活调整性能和成本之间的平衡,从而在节省开支的同时保持高质量输出。
混合强化:当奖励稀疏时,密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
这篇论文提出了一种名为HERO的混合强化学习框架,通过结合确定性验证器的稳定性和奖励模型的精细反馈,有效提升大语言模型在数学推理等任务中的性能,尤其在奖励信号稀疏或答案难以验证的情况下表现更优。
请先 登录 后再提交论文