📄 论文总结
量化视觉几何基础Transformer / Quantized Visual Geometry Grounded Transformer
1️⃣ 一句话总结
这篇论文提出了一种名为QuantVGGT的新方法,通过优化量化技术有效压缩了用于3D重建的大型Transformer模型,在保持高精度的同时大幅降低了内存占用和计算开销,使其更适合在资源有限的设备上部署。
请先 登录 后再提交论文
量化视觉几何基础Transformer / Quantized Visual Geometry Grounded Transformer
这篇论文提出了一种名为QuantVGGT的新方法,通过优化量化技术有效压缩了用于3D重建的大型Transformer模型,在保持高精度的同时大幅降低了内存占用和计算开销,使其更适合在资源有限的设备上部署。
CHARM:基于控制点的三维动漫发型自回归建模 / CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling
这篇论文提出了一个名为CHARM的新方法,它使用基于控制点的简洁参数和自回归生成框架来自动创建高质量的三维动漫发型,并建立了一个大型数据集来支持训练和评估。
感知优化与评估之间的意外不对称性 / The Unanticipated Asymmetry Between Perceptual Optimization and Assessment
这篇论文发现用于图像质量评估效果好的保真度指标不一定适合用于图像生成优化,揭示了感知优化与评估之间的不对称性,并指出判别器设计对优化效果起决定性作用。
OverLayBench:面向密集重叠布局的图像生成基准 / OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps
这篇论文提出了一个专门评估图像生成模型在复杂重叠布局下性能的新基准和量化指标,并通过改进模型初步提升了重叠场景的生成质量。
万动画:统一角色动画与替换的整体复制框架 / Wan-Animate: Unified Character Animation and Replacement with Holistic Replication
这篇论文提出了一个名为Wan-Animate的统一框架,能够根据参考视频精确复制角色的表情和动作来生成高质量动画,或者将新角色无缝替换到原视频中并保持环境光照一致,实现了高度可控和逼真的角色动画与替换效果。
空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model
这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型,用户只需在单张图片或3D空间中简单标注,就能实现跨视角的精确空间推理和测量,无需复杂标注即可应用于真实场景视频分析。
幻圆3D工作室:面向游戏就绪3D资产生成的端到端AI流程 / Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation
这篇论文介绍了一个名为幻圆3D工作室的AI平台,它能将一张概念图或一段文字描述自动转换成可直接用于游戏的高质量3D模型,大大简化了游戏开发中3D资产的创作流程。
LazyDrag:通过显式对应关系在多模态扩散变换器中实现稳定的基于拖拽的编辑 / LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
这篇论文提出了一种名为LazyDrag的新方法,通过生成明确的对应关系图来替代传统依赖隐式点匹配的方式,从而实现了无需测试时优化的稳定图像拖拽编辑,显著提升了编辑精度和生成质量。
OmniWorld:用于4D世界建模的多领域多模态数据集 / OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
这篇论文提出了一个名为OmniWorld的大规模多领域多模态数据集,旨在解决4D世界建模领域高质量数据不足的问题,并通过实验证明该数据集能显著提升现有方法在4D重建和视频生成任务上的性能。
嵌入空间中的信息丢失:视觉语言模型中的信息损失研究 / Lost in Embeddings: Information Loss in Vision-Language Models
这篇论文发现视觉语言模型在将图像信息投影到语言嵌入空间时会丢失大量关键信息,导致模型在图像检索和视觉问答任务中表现变差,并提出了两种方法来量化和定位这种信息损失。