大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
1️⃣ 一句话总结
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
请先 登录 后再提交论文
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
DiP:在像素空间中驯服扩散模型 / DiP: Taming Diffusion Models in Pixel Space
这篇论文提出了一种名为DiP的新型高效像素空间扩散模型框架,它通过将图像生成过程分解为全局结构构建和局部细节修复两个协同阶段,在无需依赖压缩编码器的情况下,实现了与潜在扩散模型相当的生成质量和计算效率,显著提升了高分辨率图像合成的速度。
ReDirector:一种用于动态捕获变长视频的相机控制视频重拍生成方法 / ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
本文提出了一种名为ReDirector的新方法,通过引入旋转相机编码(RoCE)和几何感知注意力机制,有效解决了现有方法在处理动态相机运动和变长输入视频时几何一致性差、泛化能力弱的问题,实现了高质量、几何一致且相机控制精确的任意长度视频重拍生成。
基于流映射的扩散模型测试时缩放 / Test-time scaling of diffusions with flow maps
这篇论文提出了一种名为FMTT的新方法,通过直接利用流映射而非奖励梯度,在扩散模型生成过程中更有效地引导样本向用户指定的奖励方向优化,从而实现了比现有方法更好的图像编辑和控制效果。
图像块坍缩 / The Collapse of Patches
这篇论文提出了一种名为‘图像块坍缩’的新视角,通过分析图像中不同区域之间的相互依赖关系来确定一个最优的观察顺序,从而让计算机在只看到部分图像的情况下就能高效地完成图像生成和识别任务。
Captain Safari:一个世界引擎 / Captain Safari: A World Engine
这篇论文提出了一个名为Captain Safari的新系统,它通过一个独特的‘世界记忆’机制,能够根据用户指定的复杂相机运动路径,稳定地生成长时间、三维结构一致的探索性视频,并在新建立的真实世界无人机视频数据集上验证了其优越性能。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
解耦的DMD:以CFG增强为矛,以分布匹配为盾 / Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
这篇论文重新审视了扩散模型蒸馏的主流认知,发现其核心驱动力并非传统的分布匹配,而是一个被忽视的“CFG增强”机制,后者才是实现高效少步生成的关键引擎,而分布匹配仅起到稳定训练的辅助作用,这一新理解推动了更优蒸馏方法的开发。
NVIDIA Nemotron-Parse 1.1:轻量级文档解析与OCR模型 / NVIDIA Nemotron Parse 1.1
NVIDIA Nemotron-Parse 1.1是一个8.85亿参数的轻量级文档解析和OCR模型,在通用OCR、Markdown格式化、结构化表格解析以及从图像、图表中提取文本方面相比前代有显著改进,并通过令牌压缩变体实现了20%的速度提升。
MajutsuCity: 基于自然语言驱动的审美自适应3D城市生成框架 / MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts
MajutsuCity是一个通过自然语言指令驱动、支持审美自适应控制和对象级交互编辑的3D城市场景生成系统,通过四阶段流程实现了结构一致且风格多样的城市生成。