arXiv ID:
2512.22984
逆向个性化 / Reverse Personalization
1️⃣ 一句话总结
这篇论文提出了一种新方法,能够在不依赖文本描述或针对特定人脸进行模型训练的情况下,直接对图像进行人脸匿名化处理,同时还能灵活控制保留或修改其他面部特征,在保护隐私和保持图像质量之间取得了更好的平衡。
逆向个性化 / Reverse Personalization
这篇论文提出了一种新方法,能够在不依赖文本描述或针对特定人脸进行模型训练的情况下,直接对图像进行人脸匿名化处理,同时还能灵活控制保留或修改其他面部特征,在保护隐私和保持图像质量之间取得了更好的平衡。
DreamOmni3:基于涂鸦的编辑与生成 / DreamOmni3: Scribble-based Editing and Generation
这篇论文提出了一个名为DreamOmni3的新模型,它允许用户通过简单的涂鸦、文字和图片来灵活地编辑或生成图像,解决了传统方法难以精确定位和表达细节的问题。
SpotEdit:扩散变换器中的选择性区域编辑 / SpotEdit: Selective Region Editing in Diffusion Transformers
这篇论文提出了一个名为SpotEdit的无训练图像编辑框架,它通过智能识别并跳过图像中未修改区域的冗余计算,只对需要编辑的部分进行更新,从而在保持高质量编辑效果的同时,大幅提升了编辑效率。
ProEdit:基于反转的提示编辑的正确实现 / ProEdit: Inversion-based Editing From Prompts Done Right
这篇论文提出了一种名为ProEdit的新方法,它通过改进图像和视频编辑过程中的注意力机制和潜在特征处理,解决了现有AI编辑工具在根据文字指令修改图片时,常常无法彻底改变物体属性(如姿态、数量或颜色)的问题,从而实现了更准确、更灵活的编辑效果。
IMA++:ISIC档案多标注者皮肤镜病灶分割数据集 / IMA++: ISIC Archive Multi-Annotator Dermoscopic Skin Lesion Segmentation Dataset
这篇论文发布了一个目前最大的公开多标注者皮肤镜图像病灶分割数据集,包含近1.5万张图像和1.7万个分割标注,并提供了标注者技能等元数据,以支持医学图像分割中标注者差异和偏好建模等研究。
UniPercept:面向美学、质量、结构与纹理的统一感知级图像理解 / UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture
这篇论文提出了一个名为UniPercept的统一框架和基准测试,用于评估和提升多模态大模型在感知层面(如美学、质量、结构、纹理)的图像理解能力,并展示了其在图像评分、问答乃至图像生成奖励模型中的优异表现。
UltraShape 1.0:通过可扩展的几何细化生成高保真三维形状 / UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement
这篇论文提出了一个名为UltraShape 1.0的两阶段三维形状生成框架,它先创建粗略的整体结构,再通过一种新颖的、将空间定位与细节合成分离的扩散方法进行精细化处理,从而利用有限的公开数据生成高质量、细节丰富的三维几何模型。
分位数渲染:在3D高斯泼溅中高效嵌入高维特征 / Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting
这篇论文提出了一种名为‘分位数渲染’的新方法,它通过智能地只选取对光线贡献最大的少量3D高斯点进行渲染,从而在保持高精度的同时,极大地提升了3D场景中高维特征(用于开放词汇分割)的渲染速度,实现了约43.7倍的加速。
超越记忆:一个多模态序数回归基准,用于揭示视觉-语言模型中的流行度偏见 / Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
这篇论文通过构建一个包含5.5万多张建筑图像的大型数据集,发现当前先进的视觉-语言模型存在严重的流行度偏见,即对知名建筑的识别准确率远高于普通建筑,揭示了模型过度依赖记忆而非真正理解能力的缺陷。
视频基础模型编码了多少3D信息? / How Much 3D Do Video Foundation Models Encode?
这篇论文通过一个通用框架评估了现有视频大模型对三维世界的理解能力,发现即使未经专门的3D数据训练,顶尖的视频生成模型也能展现出强大的、甚至超越专业3D模型的3D场景和物体认知能力。
请先 登录 后再提交论文