📄 论文总结
OmniX:从统一的全景生成与感知到图形就绪的3D场景 / OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes
1️⃣ 一句话总结
这篇论文提出了一个名为OmniX的统一框架,通过复用2D生成模型的能力,实现了全景图像的感知、生成与补全,并能创建出可直接用于物理渲染、光照模拟等高级图形处理的3D场景。
请先 登录 后再提交论文
OmniX:从统一的全景生成与感知到图形就绪的3D场景 / OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes
这篇论文提出了一个名为OmniX的统一框架,通过复用2D生成模型的能力,实现了全景图像的感知、生成与补全,并能创建出可直接用于物理渲染、光照模拟等高级图形处理的3D场景。
MIRO:多奖励条件预训练提升文本到图像生成的质量与效率 / MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
这项研究提出了一种名为MIRO的新方法,通过在训练过程中让模型同时学习多个用户偏好奖励,直接提升文本生成图像的质量和训练效率,避免了传统后处理方式对多样性和语义准确性的损害。
分步采样,分块优化:面向文本到图像生成的分块级GRPO方法 / Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation
这项研究提出了一种名为Chunk-GRPO的新方法,通过将文本生成图像的连续步骤组合成‘块’进行优化,有效提升了图像质量和与人类偏好的对齐程度,克服了传统方法在优势分配和时间动态建模上的不足。
WorldGrow:生成无限3D世界 / WorldGrow: Generating Infinite 3D World
这篇论文提出了一种名为WorldGrow的分层框架,通过利用预训练3D模型的结构化场景块生成能力,解决了现有方法在无限扩展3D世界时面临的几何不一致和规模限制问题,能够高效创建大规模、连贯且逼真的虚拟环境。
视频作为提示:视频生成的统一语义控制 / Video-As-Prompt: Unified Semantic Control for Video Generation
这篇论文提出了一种名为VAP的新方法,通过将参考视频作为语义提示来指导视频生成,无需额外训练即可实现高质量、多样化的可控视频生成,并在多种任务中表现出强大的零样本泛化能力。
LayerComposer:基于分层画布的多人物个性化图像生成 / LayerComposer: Multi-Human Personalized Generation via Layered Canvas
这项研究提出了一种名为LayerComposer的新方法,通过分层画布让用户能够像使用专业图像编辑软件一样,直观地放置和调整多个人物,从而生成高质量、无遮挡且身份特征保持准确的个性化图像。
HoloCine:电影式多镜头长视频叙事的整体生成 / HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
这篇论文提出了HoloCine模型,它能够整体生成连贯的多镜头长视频叙事,解决了现有技术只能生成孤立片段的问题,并实现了角色记忆和电影技法的自动运用,推动了从片段合成到自动化电影制作的转变。
DyPE:面向超高分辨率扩散模型的动态位置外推方法 / DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
这项研究提出了一种无需重新训练的动态位置外推技术,通过自适应调整扩散模型的位置编码来匹配生成过程中的频谱变化,从而在零额外采样成本下实现远超训练分辨率的图像生成,显著提升了超高分辨率图像的质量和细节表现。
RAPO++:通过数据对齐和测试时缩放的跨阶段文本到视频生成提示优化 / RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
这篇论文提出了一种名为RAPO++的跨阶段提示优化方法,通过数据对齐、测试时迭代优化和大语言模型微调,在不改动现有视频生成模型的情况下,显著提升了文本到视频生成的质量和稳定性。
D2D:从检测器到可微分评论家以改进文本到图像生成中的数字准确性 / D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
这项研究提出了一种新方法,将原本无法直接用于梯度优化的目标检测模型转化为可微分的指导模块,从而显著提升了AI图像生成模型在生成正确数量物体方面的准确性,且不影响图像质量和计算效率。