arXiv ID:
2510.15804
语言模型中线性真值编码的涌现 / Emergence of Linear Truth Encodings in Language Models
1️⃣ 一句话总结
这项研究通过一个简化的模型揭示了语言模型如何通过两阶段学习过程,从数据中自然地形成能够线性区分真假语句的内部表示,从而提升语言建模的准确性。
语言模型中线性真值编码的涌现 / Emergence of Linear Truth Encodings in Language Models
这项研究通过一个简化的模型揭示了语言模型如何通过两阶段学习过程,从数据中自然地形成能够线性区分真假语句的内部表示,从而提升语言建模的准确性。
组合式机器的能动设计 / Agentic Design of Compositional Machines
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs
这项研究提出了一种名为弹性缓存的训练免费方法,通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余,在保持生成质量的同时显著提升了解码速度,在多个任务上实现了最高45倍的加速效果。
TokDrift:当大语言模型以子词说话而代码以语法说话 / TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar
这篇论文发现,由于代码大语言模型使用的子词分词方法(如BPE)与代码语法不匹配,导致即使微小的格式变化(如空格或变量名)也会显著影响模型行为,揭示了当前分词方式是代码理解和生成可靠性的一个隐藏障碍。
作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
这篇论文提出了一种名为UI-Simulator的可扩展模拟方法,通过生成多样化的用户界面轨迹来高效训练数字代理,使其在真实任务中表现优于依赖人工数据的方法,并展示了如何用更小的模型达到大模型的性能。
基于信息增益的策略优化:一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
本文提出了一种名为IGPO的强化学习新方法,通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励,有效解决了多轮任务中奖励稀疏和信用分配困难的问题,显著提升了智能体的准确性和学习效率。
循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
这篇论文提出了一种新的并行采样方法,通过借鉴扩散模型的思想,显著加速了循环深度语言模型的文本生成速度,在无需额外调优的情况下实现了高达5倍的效率提升。
LaSeR:基于末位令牌自我奖励的强化学习 / LaSeR: Reinforcement Learning with Last-Token Self-Rewarding
这篇论文提出了一种名为LaSeR的新方法,通过仅利用模型生成答案后最后一个令牌的预测概率来高效实现自我奖励,从而在无需复杂验证流程的情况下,同时提升大型语言模型的推理能力和自我评估性能。
GroundedPRM:基于树引导和保真度感知的过程奖励建模用于步骤级推理 / GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
这篇论文提出了一种名为GroundedPRM的新方法,通过结合树搜索算法和外部工具验证,自动生成高质量的过程监督信号,从而显著提升大语言模型在多步推理任务中的准确性和可解释性,且所需训练数据量仅为现有最佳方法的10%。
基于上下文感知的扩展定律预测任务性能 / Predicting Task Performance with Context-aware Scaling Laws
这项研究提出了一个结合训练计算量和上下文信息来预测大语言模型下游任务表现的新框架,解决了传统扩展定律无法准确评估实际应用效果的局限性。
请先 登录 后再提交论文