arXiv ID:
2509.24375
强化中段训练 / Reinforcement Mid-Training
1️⃣ 一句话总结
这篇论文提出了一种在预训练和微调之间加入强化中段训练的新方法,通过动态控制推理步骤、自适应学习关键知识点和双重训练策略,显著提升了语言模型的性能和效率。
强化中段训练 / Reinforcement Mid-Training
这篇论文提出了一种在预训练和微调之间加入强化中段训练的新方法,通过动态控制推理步骤、自适应学习关键知识点和双重训练策略,显著提升了语言模型的性能和效率。
从是什么到为什么:基于证据的化学反应条件推理多智能体系统 / From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning
本研究提出了一个名为ChemMAS的多智能体系统,它不仅能高精度预测化学反应条件,还能为每个决策提供基于化学知识和先例的可解释理由,从而在科学发现中建立了一种可解释人工智能的新范式。
元认知增强推理模型:基于自对齐的强化学习 / Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
这项研究提出了一种名为MASA的自对齐强化学习方法,通过训练语言模型自我评估推理过程来提升其元认知能力,从而在无需外部数据的情况下显著提高数学和逻辑推理任务的准确性和训练效率。
使用大语言模型进行上下文相关幻觉的细粒度检测 / Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs
这篇论文研究了如何利用大语言模型来精确定位文本生成中的幻觉问题,即模型输出无法从源文本验证的信息,并通过构建新基准和评估方法揭示了模型在此任务上的主要挑战和局限性。
基于树搜索的大语言模型智能体强化学习 / Tree Search for LLM Agent Reinforcement Learning
本文提出了一种基于树搜索的分组智能体强化学习方法,通过共享路径和构建过程监督信号,有效解决了长期多轮任务中奖励稀疏的问题,并在多项问答任务中优于传统链式方法。
TrustJudge:大语言模型作为评估者的不一致性及其缓解方法 / TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
这篇论文发现当前使用大语言模型自动评估答案时存在评分不一致和偏好循环的问题,并提出了一种名为TrustJudge的概率框架,通过连续评分和概率聚合方法显著减少了这些不一致性,从而提高了评估的可靠性。
BESPOKE:基于诊断反馈的检索增强大语言模型个性化定制基准 / BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback
这项研究提出了一个名为BESPOKE的基准测试,通过收集真实用户聊天记录和搜索历史并搭配精细反馈,来系统评估检索增强大语言模型如何更好地理解不同用户的个性化需求并提供定制化信息。
ScaleDiff:为高级数学推理扩展难题规模 / ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
这篇论文提出了一种名为ScaleDiff的高效方法,通过自动筛选现有数据集中的难题并训练专门的生成器来大规模创造高难度数学问题,从而显著提升大型推理模型在复杂数学任务上的表现,同时大幅降低了计算成本和人工干预需求。
RoPE背后:因果掩码如何编码位置信息? / Behind RoPE: How Does Causal Mask Encode Positional Information?
这篇论文揭示了在Transformer解码器中,除了显式位置编码(如RoPE)外,因果掩码本身也能提供位置信息,它会诱导注意力偏向邻近位置,并与RoPE相互作用,改变其相对注意力模式。
风格基准:评估大型语言模型的思维风格 / StyleBench: Evaluating thinking styles in Large Language Models
这篇论文提出了一个名为StyleBench的基准测试,通过系统评估五种不同推理风格在多种任务和模型上的表现,发现没有一种风格在所有情况下都是最优的,其效果高度依赖于模型规模和任务类型,为根据具体需求选择最佳推理策略提供了实用指南。
请先 登录 后再提交论文