📄 论文总结
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
1️⃣ 一句话总结
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。
请先 登录 后再提交论文
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。
联合增强语言模型生成内容的多样性与质量 / Jointly Reinforcing Diversity and Quality in Language Model Generations
这篇论文提出了一个名为DARLING的强化学习框架,通过同时优化回答质量和语义多样性,解决了大语言模型在训练后常常牺牲多样性来提升准确性的问题,从而在创意写作和数学解题等任务中生成既优质又新颖的内容。
基于监督学习框架的隐式行动者评论家耦合强化学习可验证奖励方法 / Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
这篇论文提出了一种名为PACS的新方法,通过将强化学习中的可验证奖励问题转化为监督学习任务,巧妙地结合了行动者和评论家的角色,从而在数学推理等任务上实现了更稳定高效的训练和更优的性能表现。
SimpleTIR:面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
这篇论文提出了一种名为SimpleTIR的即插即用算法,通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练,从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。
Baichuan-M2:通过大规模验证系统扩展医疗能力 / Baichuan-M2: Scaling Medical Capability with Large Verifier System
这篇论文提出了一个动态验证框架,通过模拟真实医疗环境和多维评估指标训练出医疗增强推理模型Baichuan-M2,在性能上超越了多数开源和闭源模型,显著提升了大型语言模型在实际临床决策中的应用效果。
属性作为文本基因:利用大语言模型作为遗传算法模拟器进行条件性合成数据生成 / Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation
这篇论文提出了一种名为'遗传提示'的新方法,通过将文本属性视为基因并利用大语言模型模拟遗传算法中的交叉和变异操作,有效提升了合成数据的质量和多样性,在多种自然语言处理任务中显著优于现有技术。
深度研究竞技场:基于学术研讨会的任务首次检验大语言模型的研究能力 / DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
这篇论文提出了一个名为DeepResearch Arena的新基准测试,它利用真实学术研讨会内容自动生成高质量研究任务,有效评估大语言模型在多学科研究中的综合能力,并发现当前先进模型仍面临显著挑战。
通过向同行小组学习改进大型视觉语言模型 / Improving Large Vision and Language Models by Learning from a Panel of Peers
这项研究提出了一种让多个大型视觉语言模型互相评估和学习的新方法,通过模拟同行评审过程来提升模型性能,无需依赖大量人工标注数据,在多个测试中平均得分从48%提升至57%。
FlashAdventure:一个用于评估GUI智能体在多样冒险游戏中完成完整故事线的基准 / FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
这篇论文提出了一个名为FlashAdventure的新基准,包含34款Flash冒险游戏,用于测试AI智能体完成完整故事线的能力,并设计了一种利用长期线索记忆的智能体框架来提升任务解决效果,实验表明现有智能体仍与人类表现存在明显差距。
面向深度研究的开放数据合成 / Open Data Synthesis For Deep Research
这篇论文提出了一个名为InfoSeek的框架,通过自动生成复杂的多步骤研究问题数据集,有效训练大语言模型进行深度推理,使小模型在复杂任务上能媲美甚至超越大模型的表现。