BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
1️⃣ 一句话总结
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
请先 登录 后再提交论文
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
奖励强制:通过奖励分布匹配蒸馏实现高效流式视频生成 / Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
这篇论文提出了一种名为‘奖励强制’的新方法,通过引入能融合长期上下文与近期动态的EMA-Sink令牌,以及利用视觉语言模型奖励来优先学习动态内容的分布匹配蒸馏技术,有效解决了现有流式视频生成方法中初始帧被过度复制、运动动态不足的问题,从而在保持长时一致性的同时,显著提升了生成视频的运动质量和生成效率。
SignRoundV2:弥合大语言模型极低位宽后训练量化中的性能差距 / SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
这篇论文提出了一个名为SignRoundV2的新方法,它通过一种快速的敏感度指标和轻量级预调优技术,成功地将大语言模型压缩到极低的位宽(如2比特或4比特),同时保持了与原始高精度模型非常接近的性能,解决了此类压缩通常导致性能严重下降的难题。
TV2TV:一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation
这篇论文提出了一个名为TV2TV的新框架,它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤,来提升复杂视频的生成质量和可控性,使其能更好地理解和执行用户指令。
SeeNav-Agent:通过视觉提示和步级策略优化增强视觉语言导航 / SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization
这篇论文提出了一个名为SeeNav-Agent的新框架,它通过引入双重视觉提示来减少视觉感知错误,并设计了一种步级强化微调方法,显著提升了智能体在视觉语言导航任务中的成功率和规划能力。
Splannequin:通过双重检测的溅射技术冻结单目人体模型挑战视频 / Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting
这篇论文提出了一种名为Splannequin的新方法,它通过检测和锚定动态高斯模型中‘隐藏’和‘缺陷’的两种状态,有效解决了从单角度拍摄的动态视频中合成高质量、用户可选择‘时间冻结’3D场景时出现的鬼影和模糊问题,且无需改变现有模型结构或增加额外计算开销。
4DLangVGGT:基于Transformer的4D语言-视觉几何统一模型 / 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
这篇论文提出了一种名为4DLangVGGT的新型人工智能模型,它能够一次性理解动态三维场景的几何变化并用自然语言描述其中的物体,无需对每个新场景进行耗时优化,从而为机器人、增强现实等应用提供了更高效、通用的场景理解工具。
语义先行:通过异步潜在扩散协调语义与纹理建模 / Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion
这篇论文提出了一种名为“语义优先扩散”的新方法,通过让AI图像生成模型先明确生成图像的整体语义结构,再基于此细化纹理细节,从而实现了更高质量、更快速且更符合人类认知过程的图像生成。
神经重制:用于结构对齐生成的相位保持扩散模型 / NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
这篇论文提出了一种新的扩散模型方法,它在生成新图像或视频时能保持原始输入的空间结构(如物体形状和位置),从而在图像重渲染、模拟器增强等需要几何一致性的任务上表现更优,且无需增加额外计算成本。