arXiv ID:
2510.14980
组合式机器的能动设计 / Agentic Design of Compositional Machines
1️⃣ 一句话总结
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
组合式机器的能动设计 / Agentic Design of Compositional Machines
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
无需图像编辑对学习的图像编辑模型 / Learning an Image Editing Model without Image Editing Pairs
这项研究提出了一种无需成对训练数据的新方法,通过结合视觉语言模型的反馈和分布匹配技术,直接优化扩散模型来实现高质量图像编辑,其效果媲美依赖大量监督数据的现有模型。
Ponimator:基于交互姿态展开的通用人-人交互动画生成框架 / Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
这篇论文提出了一个名为Ponimator的创新框架,它利用近距离人-人交互姿态作为核心线索,通过两个扩散模型分别生成动态交互动作和合成交互姿态,从而实现了从图像、文本或单姿态输入生成多样化人-人交互动画的能力。
WithAnyone:面向可控且身份一致性的图像生成 / WithAnyone: Towards Controllable and ID Consistent Image Generation
这篇论文提出了一种新的图像生成方法WithAnyone,通过构建大规模配对数据集和引入对比性身份损失,有效解决了现有模型在生成人物图像时过度复制参考面部的问题,实现了在保持身份一致性的同时支持姿势、表情等自然变化的可控生成。
pi-Flow:通过模仿蒸馏实现基于策略的少步生成 / pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
这篇论文提出了一种名为pi-Flow的新方法,通过让模型学习一个简单策略来模仿教师模型的生成路径,从而在保持图像质量的同时用更少的步骤生成多样化的图像,解决了现有方法在质量和多样性之间的权衡问题。
注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs
这项研究提出了一种名为弹性缓存的训练免费方法,通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余,在保持生成质量的同时显著提升了解码速度,在多个任务上实现了最高45倍的加速效果。
作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
这篇论文提出了一种名为UI-Simulator的可扩展模拟方法,通过生成多样化的用户界面轨迹来高效训练数字代理,使其在真实任务中表现优于依赖人工数据的方法,并展示了如何用更小的模型达到大模型的性能。
循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
这篇论文提出了一种新的并行采样方法,通过借鉴扩散模型的思想,显著加速了循环深度语言模型的文本生成速度,在无需额外调优的情况下实现了高达5倍的效率提升。
MathCanvas:用于多模态数学推理的内在视觉思维链 / MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
这篇论文提出了一个名为MathCanvas的框架,通过预训练和微调让大型多模态模型学会在解决数学问题时自动生成和编辑图表,从而显著提升了其在几何等需要视觉辅助的数学领域的推理能力。
真实与否,即为偏好:RealDPO方法 / RealDPO: Real or Not Real, that is the Preference
这篇论文提出了一种名为RealDPO的新方法,通过利用真实视频作为正面范例来训练AI模型,有效提升了生成视频中复杂动作的自然度和真实感,并配套发布了高质量动作数据集RealAction-5K。
请先 登录 后再提交论文