📄 论文总结
DyPE:面向超高分辨率扩散模型的动态位置外推方法 / DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
1️⃣ 一句话总结
这项研究提出了一种无需重新训练的动态位置外推技术,通过自适应调整扩散模型的位置编码来匹配生成过程中的频谱变化,从而在零额外采样成本下实现远超训练分辨率的图像生成,显著提升了超高分辨率图像的质量和细节表现。
请先 登录 后再提交论文
DyPE:面向超高分辨率扩散模型的动态位置外推方法 / DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
这项研究提出了一种无需重新训练的动态位置外推技术,通过自适应调整扩散模型的位置编码来匹配生成过程中的频谱变化,从而在零额外采样成本下实现远超训练分辨率的图像生成,显著提升了超高分辨率图像的质量和细节表现。
冲浪者2:新一代跨平台计算机使用智能体 / Surfer 2: The Next Generation of Cross-Platform Computer Use Agents
这项研究开发了一个名为Surfer 2的通用智能体系统,它仅通过视觉观察就能在网页、桌面和移动设备上执行复杂任务,并在多个测试平台上超越现有系统和人类表现,为实现通用计算机控制提供了新方案。
Seed3D 1.0:从图像到高保真仿真就绪的3D资产 / Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets
这篇论文提出了一个名为Seed3D 1.0的基础模型,能够从单张图片直接生成具有精确几何形状、对齐纹理和真实物理材质的3D资产,这些资产无需复杂配置即可集成到物理引擎中,解决了仿真环境创建中内容多样性与物理准确性难以兼顾的规模化难题。
持续音视频分割中的模态纠缠驯服 / Taming Modality Entanglement in Continual Audio-Visual Segmentation
本文提出了一种新的持续音视频分割任务,通过设计碰撞式多模态复习框架,解决了多模态语义漂移和共现混淆问题,显著提升了模型在连续学习新类别时的性能。
D2D:从检测器到可微分评论家以改进文本到图像生成中的数字准确性 / D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
这项研究提出了一种新方法,将原本无法直接用于梯度优化的目标检测模型转化为可微分的指导模块,从而显著提升了AI图像生成模型在生成正确数量物体方面的准确性,且不影响图像质量和计算效率。
探索扩散模型在机器人控制中的应用条件 / Exploring Conditions for Diffusion models in Robotic Control
这项研究提出了一种名为ORCA的新方法,通过设计可学习的任务提示和视觉提示,让预训练的文本到图像扩散模型能够适应机器人控制任务,而无需重新训练模型,从而在多个机器人控制基准测试中取得了领先性能。
从像素到词汇——构建大规模原生视觉语言基础模型 / From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
这篇论文提出了构建原生视觉语言模型(VLM)的核心原则,并发布了名为NEO的新型模型系列,通过统一架构有效融合视觉与语言能力,在少量数据下实现与顶尖模块化模型相媲美的性能。
WithAnyone:面向可控且身份一致性的图像生成 / WithAnyone: Towards Controllable and ID Consistent Image Generation
这篇论文提出了一种新的图像生成方法WithAnyone,通过构建大规模配对数据集和引入对比性身份损失,有效解决了现有模型在生成人物图像时过度复制参考面部的问题,实现了在保持身份一致性的同时支持姿势、表情等自然变化的可控生成。
无需图像编辑对学习的图像编辑模型 / Learning an Image Editing Model without Image Editing Pairs
这项研究提出了一种无需成对训练数据的新方法,通过结合视觉语言模型的反馈和分布匹配技术,直接优化扩散模型来实现高质量图像编辑,其效果媲美依赖大量监督数据的现有模型。
Ponimator:基于交互姿态展开的通用人-人交互动画生成框架 / Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
这篇论文提出了一个名为Ponimator的创新框架,它利用近距离人-人交互姿态作为核心线索,通过两个扩散模型分别生成动态交互动作和合成交互姿态,从而实现了从图像、文本或单姿态输入生成多样化人-人交互动画的能力。