arXiv ID:
2510.15804
语言模型中线性真值编码的涌现 / Emergence of Linear Truth Encodings in Language Models
1️⃣ 一句话总结
这项研究通过一个简化的模型揭示了语言模型如何通过两阶段学习过程,从数据中自然地形成能够线性区分真假语句的内部表示,从而提升语言建模的准确性。
语言模型中线性真值编码的涌现 / Emergence of Linear Truth Encodings in Language Models
这项研究通过一个简化的模型揭示了语言模型如何通过两阶段学习过程,从数据中自然地形成能够线性区分真假语句的内部表示,从而提升语言建模的准确性。
探索扩散模型在机器人控制中的应用条件 / Exploring Conditions for Diffusion models in Robotic Control
这项研究提出了一种名为ORCA的新方法,通过设计可学习的任务提示和视觉提示,让预训练的文本到图像扩散模型能够适应机器人控制任务,而无需重新训练模型,从而在多个机器人控制基准测试中取得了领先性能。
组合式机器的能动设计 / Agentic Design of Compositional Machines
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
无需图像编辑对学习的图像编辑模型 / Learning an Image Editing Model without Image Editing Pairs
这项研究提出了一种无需成对训练数据的新方法,通过结合视觉语言模型的反馈和分布匹配技术,直接优化扩散模型来实现高质量图像编辑,其效果媲美依赖大量监督数据的现有模型。
Ponimator:基于交互姿态展开的通用人-人交互动画生成框架 / Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
这篇论文提出了一个名为Ponimator的创新框架,它利用近距离人-人交互姿态作为核心线索,通过两个扩散模型分别生成动态交互动作和合成交互姿态,从而实现了从图像、文本或单姿态输入生成多样化人-人交互动画的能力。
WithAnyone:面向可控且身份一致性的图像生成 / WithAnyone: Towards Controllable and ID Consistent Image Generation
这篇论文提出了一种新的图像生成方法WithAnyone,通过构建大规模配对数据集和引入对比性身份损失,有效解决了现有模型在生成人物图像时过度复制参考面部的问题,实现了在保持身份一致性的同时支持姿势、表情等自然变化的可控生成。
pi-Flow:通过模仿蒸馏实现基于策略的少步生成 / pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
这篇论文提出了一种名为pi-Flow的新方法,通过让模型学习一个简单策略来模仿教师模型的生成路径,从而在保持图像质量的同时用更少的步骤生成多样化的图像,解决了现有方法在质量和多样性之间的权衡问题。
注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs
这项研究提出了一种名为弹性缓存的训练免费方法,通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余,在保持生成质量的同时显著提升了解码速度,在多个任务上实现了最高45倍的加速效果。
作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
这篇论文提出了一种名为UI-Simulator的可扩展模拟方法,通过生成多样化的用户界面轨迹来高效训练数字代理,使其在真实任务中表现优于依赖人工数据的方法,并展示了如何用更小的模型达到大模型的性能。
循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
这篇论文提出了一种新的并行采样方法,通过借鉴扩散模型的思想,显著加速了循环深度语言模型的文本生成速度,在无需额外调优的情况下实现了高达5倍的效率提升。
请先 登录 后再提交论文