大型语言模型测试时计算资源的扩展艺术 / The Art of Scaling Test-Time Compute for Large Language Models
1️⃣ 一句话总结
这项研究首次大规模评估了多种动态分配推理计算资源的策略,发现没有一种策略在所有情况下都最优,并基于模型类型、问题难度和计算预算,为如何选择最佳策略提供了实用指南。
请先 登录 后再提交论文
大型语言模型测试时计算资源的扩展艺术 / The Art of Scaling Test-Time Compute for Large Language Models
这项研究首次大规模评估了多种动态分配推理计算资源的策略,发现没有一种策略在所有情况下都最优,并基于模型类型、问题难度和计算预算,为如何选择最佳策略提供了实用指南。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
Agent0:通过工具集成推理从零数据释放自进化智能体 / Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
这篇论文提出了一个名为Agent0的自主框架,它通过让两个智能体在工具辅助下相互竞争与学习,无需外部数据就能自我进化,显著提升了语言模型在数学和通用推理任务上的能力。
SofT-GRPO:通过Gumbel重参数化软思维策略优化超越离散令牌大语言模型强化学习 / SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization
这项研究提出了一种名为SofT-GRPO的新算法,通过引入Gumbel噪声和重参数化技术,成功实现了对软思维推理模式大语言模型的强化学习训练,使其在多项测试中超越了传统的离散令牌强化学习方法。
顺序优势:在同等计算量下,逆熵投票优于并行自一致性方法 / The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute
这项研究发现,在相同计算资源下,让语言模型通过顺序迭代改进答案的方法,比同时运行多个独立推理链的并行方法更有效,并通过一种新的逆熵加权投票技术进一步提升了准确率。
环形巴士:一个用于评估视觉语言模型理解画谜能力的大型多样化多模态基准 / $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
这篇论文提出了一个包含1333个英文画谜的大型多样化评测基准,并设计了一种结合描述与代码推理的新方法,显著提升了各类视觉语言模型在理解这类需要综合认知能力的谜题上的表现。
DeepWideSearch:在智能信息搜索中评估深度与广度的基准 / DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking
这篇论文提出了首个专门评估智能信息搜索系统在深度推理和广度收集两方面综合能力的基准测试DeepWideSearch,发现当前最先进的系统成功率极低,揭示了现有架构在反思能力、知识依赖、检索充分性和上下文处理等方面的关键缺陷。
LaSeR:基于末位令牌自我奖励的强化学习 / LaSeR: Reinforcement Learning with Last-Token Self-Rewarding
这篇论文提出了一种名为LaSeR的新方法,通过仅利用模型生成答案后最后一个令牌的预测概率来高效实现自我奖励,从而在无需复杂验证流程的情况下,同时提升大型语言模型的推理能力和自我评估性能。
基于采样的推理:你的基础模型比你想象得更聪明 / Reasoning with Sampling: Your Base Model is Smarter Than You Think
这篇论文提出了一种无需额外训练、仅通过迭代采样就能显著提升基础模型推理能力的方法,其效果在多项任务上接近甚至超过需要强化学习的复杂训练方法。
MoM:面向检索增强生成系统的场景感知文档记忆混合框架 / MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
本文提出了一种名为MoM的创新框架,通过模拟人类主动阅读和认知过程,将传统检索增强生成系统的被动文本分块转变为主动构建场景感知的文档记忆,从而提升小语言模型在多领域文档处理中的语义理解和推理能力。