🤖 系统
11-30 17:28
📄 论文总结
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
1️⃣ 一句话总结
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。
请先 登录 后再提交论文
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。
Robix:一种用于机器人交互、推理与规划的统一模型 / Robix: A Unified Model for Robot Interaction, Reasoning and Planning
这篇论文提出了一个名为Robix的统一模型,它能让机器人像人一样思考、规划和对话,通过整合推理、任务规划和自然语言交互,使机器人能够执行复杂指令、处理突发情况并与人类流畅沟通,其性能甚至超越了GPT-4o等先进模型。
ThinkDial:一种控制大语言模型推理计算量的开放方案 / ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
这篇论文提出了一个名为ThinkDial的开放框架,能让大语言模型像切换档位一样在三种推理模式间自由切换,从而在保持性能的同时显著降低计算成本。