📄 论文总结
ROSE:消除视频中物体的附带效应 / ROSE: Remove Objects with Side Effects in Videos
1️⃣ 一句话总结
这篇论文提出了一个名为ROSE的视频对象移除框架,它不仅能够去除物体本身,还能有效消除物体在环境中产生的阴影、反光等五种常见附带效应,通过合成数据和专门设计的模型在多种场景下实现了优于现有方法的性能。
请先 登录 后再提交论文
ROSE:消除视频中物体的附带效应 / ROSE: Remove Objects with Side Effects in Videos
这篇论文提出了一个名为ROSE的视频对象移除框架,它不仅能够去除物体本身,还能有效消除物体在环境中产生的阴影、反光等五种常见附带效应,通过合成数据和专门设计的模型在多种场景下实现了优于现有方法的性能。
ObjFiller-3D:通过视频扩散模型实现一致的多视角三维修复 / ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
这篇论文提出了一种名为ObjFiller-3D的新方法,它通过巧妙利用先进的视频编辑模型来修复三维物体,解决了传统方法中多视角修复不一致的问题,从而实现了更高质量、更连贯的三维物体补全与编辑。
Social-MAE:基于Transformer的多模态人脸与语音自编码器 / Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
这项研究开发了一个名为Social-MAE的多模态人工智能模型,通过自监督学习从人脸和语音数据中提取特征,在情感识别、笑声检测等社交任务中取得了领先或具有竞争力的性能。
Pixie:基于像素的快速通用化三维物理监督学习 / Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
这篇论文提出了一个名为Pixie的快速神经网络方法,能够直接从三维视觉特征中学习并预测物体的物理属性(如弹性),无需逐场景优化,且训练后能快速泛化到真实世界场景。
协同多模态编码用于高质量三维生成 / Collaborative Multi-Modal Coding for High-Quality 3D Generation
这篇论文提出了首个名为TriMM的前馈式三维生成模型,通过协同整合图像和点云等多模态数据,有效提升了三维资产在纹理和几何细节上的生成质量。
TalkVid:一个用于音频驱动说话头合成的大规模多样化数据集 / TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
这篇论文提出了一个名为TalkVid的大规模、高质量、多样化数据集,旨在解决当前音频驱动说话头生成模型在种族、语言和年龄群体上泛化能力不足的问题,并通过实验证明使用该数据集训练的模型具有更好的跨数据集泛化性能。