arXiv ID:
2601.05239
全光视频生成 / Plenoptic Video Generation
1️⃣ 一句话总结
本文提出了一种名为PlenopticDreamer的新框架,它通过同步生成过程中的‘幻觉’内容来保持时空一致性,从而解决了现有方法在多视角视频生成中画面不连贯的难题,实现了高质量、可控且视角多样的视频重渲染。
全光视频生成 / Plenoptic Video Generation
本文提出了一种名为PlenopticDreamer的新框架,它通过同步生成过程中的‘幻觉’内容来保持时空一致性,从而解决了现有方法在多视角视频生成中画面不连贯的难题,实现了高质量、可控且视角多样的视频重渲染。
ResTok:为自回归图像生成学习一维视觉分词器中的层次化残差 / ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
这篇论文提出了一种名为ResTok的新视觉分词器,它通过引入类似视觉模型的层次化残差结构,显著提升了自回归模型生成图像的质量和效率,仅需9步就能在ImageNet-256上达到优异的生成效果。
少数关键令牌决定成败:基于熵的视觉-语言模型攻击方法 / Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models
这篇论文发现,视觉-语言模型在生成文本时,只有大约20%的关键位置(高熵令牌)对输出结果起决定性作用,通过集中攻击这些位置,就能用很小的代价让模型产生大量有害内容,从而揭示了现有模型安全机制的重大漏洞。
VA-π:一种用于像素感知自回归生成的变分策略对齐方法 / VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
这篇论文提出了一种名为VA-π的轻量级后训练框架,通过将自回归图像生成模型视为一个策略,并直接使用像素空间的重建质量作为奖励来优化它,从而有效解决了现有方法中图像编码器与生成器目标不一致导致图像质量下降的问题,仅需极少数据和极短时间就能显著提升生成图像的逼真度和多样性。
FrameDiffuser:基于G-Buffer条件扩散的神经前向帧渲染 / FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering
这篇论文提出了一种名为FrameDiffuser的新方法,它能够利用游戏场景的几何与材质信息,像放电影一样一帧接一帧地实时生成画面逼真、前后连贯的动态图像,解决了现有技术在交互应用(如游戏)中画面闪烁或计算太慢的问题。
我们准备好将强化学习用于文本生成3D了吗?一项渐进式研究 / Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
这篇论文首次系统地探索了如何将强化学习应用于文本生成3D模型,通过研究奖励设计、算法改进并引入新基准,最终开发出一个能从文本描述生成从粗略形状到精细纹理的3D模型。
OneStory:一种具有自适应记忆能力的连贯多镜头视频生成方法 / OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
这篇论文提出了一种名为OneStory的新方法,它通过构建一个自适应的全局记忆模块来捕捉和整合不同镜头间的语义关联,从而能够生成情节连贯、可控的长篇多镜头叙事视频,解决了现有方法在复杂叙事下连贯性不足的问题。
重新思考逐尺度自回归生成中的训练动态 / Rethinking Training Dynamics in Scale-wise Autoregressive Generation
本文提出了一种名为“自自回归精炼”的新方法,通过改进训练过程来减少模型在生成图像时因预测误差累积导致的质量下降问题,从而高效提升现有自回归模型的生成效果。
图像块坍缩 / The Collapse of Patches
这篇论文提出了一种名为‘图像块坍缩’的新视角,通过分析图像中不同区域之间的相互依赖关系来确定一个最优的观察顺序,从而让计算机在只看到部分图像的情况下就能高效地完成图像生成和识别任务。
STARFlow-V:基于标准化流的端到端视频生成模型 / STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
这篇论文提出了一种名为STARFlow-V的新型视频生成模型,它利用标准化流技术实现了端到端的视频生成,在保证高视觉质量和时间一致性的同时,还能高效处理文本、图像到视频等多种生成任务,为视频生成领域提供了新的研究方向。
请先 登录 后再提交论文