ShadowDraw:从任意物体到光影绘画的组合艺术 / ShadowDraw: From Any Object to Shadow-Drawing Compositional Art
1️⃣ 一句话总结
这篇论文提出了一个名为ShadowDraw的系统,它能把普通的3D物体变成一种艺术创作工具:通过自动调整物体的摆放位置和灯光,让物体投下的影子恰好能补全一幅未完成的线稿,从而形成一幅完整的、有意义的图画。
请先 登录 后再提交论文
ShadowDraw:从任意物体到光影绘画的组合艺术 / ShadowDraw: From Any Object to Shadow-Drawing Compositional Art
这篇论文提出了一个名为ShadowDraw的系统,它能把普通的3D物体变成一种艺术创作工具:通过自动调整物体的摆放位置和灯光,让物体投下的影子恰好能补全一幅未完成的线稿,从而形成一幅完整的、有意义的图画。
GaussianBlender:利用解耦潜在空间实现3D高斯模型的即时风格化 / GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces
这篇论文提出了一种名为GaussianBlender的新方法,它能够根据文字描述,在无需针对每个3D模型进行耗时优化的前提下,快速、高质量地改变3D物体的视觉风格,同时保持其原有形状和多视角一致性,为游戏和虚拟现实等领域的大规模3D内容创作提供了实用工具。
FMA-Net++:一种感知运动与动态曝光的真实世界视频超分辨率与去模糊联合处理框架 / FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring
这篇论文提出了一种名为FMA-Net++的新方法,它通过专门建模运动与动态变化的曝光之间的耦合效应,能够更有效地联合提升真实世界视频的清晰度和分辨率,并且在新的测试基准上取得了领先的修复效果和运行速度。
DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
Light-X:具备相机与光照联合控制的生成式4D视频渲染框架 / Light-X: Generative 4D Video Rendering with Camera and Illumination Control
这篇论文提出了一个名为Light-X的智能视频生成系统,它能让用户像导演一样,在保持画面流畅连贯的前提下,同时自由控制拍摄镜头的移动角度和场景的灯光效果,从而创造出逼真且动态变化的视频内容。
先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
Splannequin:通过双重检测的溅射技术冻结单目人体模型挑战视频 / Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting
这篇论文提出了一种名为Splannequin的新方法,它通过检测和锚定动态高斯模型中‘隐藏’和‘缺陷’的两种状态,有效解决了从单角度拍摄的动态视频中合成高质量、用户可选择‘时间冻结’3D场景时出现的鬼影和模糊问题,且无需改变现有模型结构或增加额外计算开销。
4DLangVGGT:基于Transformer的4D语言-视觉几何统一模型 / 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
这篇论文提出了一种名为4DLangVGGT的新型人工智能模型,它能够一次性理解动态三维场景的几何变化并用自然语言描述其中的物体,无需对每个新场景进行耗时优化,从而为机器人、增强现实等应用提供了更高效、通用的场景理解工具。