UltraImage:重新思考图像扩散变换器中的分辨率外推 / UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers
1️⃣ 一句话总结
本文提出了一种名为UltraImage的新方法,通过修正位置编码中的周期性频率和优化注意力机制,成功解决了现有图像扩散模型在生成超高分辨率图像时出现的重复内容和质量下降问题,实现了从1328p训练分辨率直接生成高达6K图像的卓越外推能力。
请先 登录 后再提交论文
UltraImage:重新思考图像扩散变换器中的分辨率外推 / UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers
本文提出了一种名为UltraImage的新方法,通过修正位置编码中的周期性频率和优化注意力机制,成功解决了现有图像扩散模型在生成超高分辨率图像时出现的重复内容和质量下降问题,实现了从1328p训练分辨率直接生成高达6K图像的卓越外推能力。
通过高效适配扩散Transformer实现反射去除 / Reflection Removal through Efficient Adaptation of Diffusion Transformers
这项研究提出了一种新方法,通过高效微调一个预先训练好的扩散Transformer大模型,并结合逼真的合成数据,来智能地去除单张照片中由玻璃等表面产生的恼人反光,效果达到了当前最佳水平。
LATTICE:大规模民主化高保真3D生成 / LATTICE: Democratize High-Fidelity 3D Generation at Scale
这篇论文提出了一个名为LATTICE的新框架,它通过一种创新的半结构化表示方法VoxSet和两阶段生成流程,解决了3D生成模型在质量和扩展性上长期落后于2D模型的难题,使得高效、高质量地大规模创建3D数字资产成为可能。
基于视频扩散先验的生成式神经视频压缩 / Generative Neural Video Compression via Video Diffusion Prior
这篇论文提出了一种名为GNVC-VD的新型视频压缩框架,它首次将先进的视频生成模型用于压缩,通过序列级的联合优化来减少传统方法中常见的画面闪烁问题,从而在极低码率下也能保持视频的时空连贯性和高感知质量。
通过源语言屏蔽更新缓解大语言模型目标语言适应中的灾难性遗忘 / Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates
这篇论文提出了一种名为‘源语言屏蔽更新’的新方法,它通过智能地识别并保护大语言模型中与源语言能力相关的关键参数,在仅使用无标注目标语言数据进行模型适应时,有效防止了模型忘记原有知识,同时保持了在新语言上的优秀表现。
GaussianBlender:利用解耦潜在空间实现3D高斯模型的即时风格化 / GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces
这篇论文提出了一种名为GaussianBlender的新方法,它能够根据文字描述,在无需针对每个3D模型进行耗时优化的前提下,快速、高质量地改变3D物体的视觉风格,同时保持其原有形状和多视角一致性,为游戏和虚拟现实等领域的大规模3D内容创作提供了实用工具。
基于模型且样本高效的AI辅助球体堆积数学发现 / Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing
这篇论文提出了一种结合贝叶斯优化与蒙特卡洛树搜索的、基于模型且样本高效的人工智能方法,成功解决了传统数据密集型AI难以处理的球体堆积优化问题,并在多个维度上获得了目前最精确的上界结果。
FMA-Net++:一种感知运动与动态曝光的真实世界视频超分辨率与去模糊联合处理框架 / FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring
这篇论文提出了一种名为FMA-Net++的新方法,它通过专门建模运动与动态变化的曝光之间的耦合效应,能够更有效地联合提升真实世界视频的清晰度和分辨率,并且在新的测试基准上取得了领先的修复效果和运行速度。
缓解统一多模态模型持续学习中的模态内与模态间遗忘 / Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
这篇论文提出了一种名为MoDE的轻量级架构,通过将不同模态的学习过程解耦,有效解决了统一多模态模型在持续学习新任务时,不仅会在单一模态内部遗忘旧知识,还会在不同模态之间相互干扰导致遗忘的关键难题。
深度强制:基于深度汇与参与式压缩的无训练长视频生成 / Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression
这篇论文提出了一种无需额外训练的方法,通过优化模型内部记忆管理机制,解决了AI生成超长视频时画面重复、质量下降和动作变慢的问题,能实时生成超过训练时长12倍的连贯高质量视频。