arXiv ID:
2601.18577
自我优化视频采样 / Self-Refining Video Sampling
1️⃣ 一句话总结
这篇论文提出了一种让现有视频生成模型在推理时进行自我迭代优化的方法,无需额外训练或外部验证器,就能显著提升生成视频中复杂物理运动的真实感和连贯性。
自我优化视频采样 / Self-Refining Video Sampling
这篇论文提出了一种让现有视频生成模型在推理时进行自我迭代优化的方法,无需额外训练或外部验证器,就能显著提升生成视频中复杂物理运动的真实感和连贯性。
UI Remix:通过交互式示例检索与重组支持用户界面设计 / UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing
这篇论文介绍了一个名为UI Remix的交互式AI系统,它通过多模态检索增强生成技术,帮助非专业设计者轻松地搜索、选择和重组移动界面设计示例,从而提升他们的设计效率、探索能力和对设计方案的信心。
iFSQ:用一行代码改进FSQ以提升图像生成 / iFSQ: Improving FSQ for Image Generation with 1 Line of Code
这篇论文通过将原始FSQ中的激活函数替换为一个分布匹配映射,仅用一行代码就解决了图像生成中离散与连续表示之间的权衡问题,并发现每维度约4比特是两者的最佳平衡点,同时揭示了自回归模型收敛快但扩散模型上限更高的规律。
SALAD:通过高效的线性注意力微调实现视频扩散Transformer的高稀疏性注意力 / SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
这篇论文提出了一种名为SALAD的新方法,通过在视频生成模型中巧妙地结合稀疏注意力和一个轻量级的线性注意力分支,并用一个智能门控机制来动态平衡两者,从而在几乎不损失生成质量的前提下,大幅提升了模型的计算效率,实现了90%的注意力稀疏度和1.72倍的推理加速,而且所需的训练数据和计算量非常少。
ActionMesh:基于时序3D扩散的动画3D网格生成 / ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
这篇论文提出了一个名为ActionMesh的快速生成模型,它通过引入时序3D扩散技术,能够直接从视频、文字或静态3D模型等输入,一键生成高质量、可直接用于生产流程的动画3D网格模型。
Qwen3-TTS技术报告 / Qwen3-TTS Technical Report
这篇论文介绍了Qwen3-TTS系列模型,这是一个支持多语言、可控、鲁棒且能实时流式合成语音的先进系统,它通过创新的双轨架构和两种语音分词器,实现了仅需3秒的语音克隆、基于描述的精细控制以及超低延迟的语音生成。
Interp3D:用于生成带纹理3D形变的对应关系感知插值方法 / Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing
这篇论文提出了一种名为Interp3D的新方法,它无需额外训练就能在保持结构和纹理一致性的前提下,生成两个带纹理3D模型之间平滑且逼真的过渡动画,解决了现有方法在形变时容易导致语义模糊、结构错位和纹理模糊的问题。
CoDance:一种用于鲁棒多主体动画的解绑-重绑范式 / CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation
这篇论文提出了一种名为CoDance的新方法,通过‘解绑’运动与位置的强关联并‘重绑’运动到指定目标,解决了现有技术难以处理图像中任意数量、类型或位置错位的多个角色动画的问题,实现了更灵活、鲁棒的多主体动画生成。
Alterbute:编辑图像中物体的内在属性 / Alterbute: Editing Intrinsic Attributes of Objects in Images
这篇论文提出了一个名为Alterbute的新方法,它能够像修图一样精准地改变图片中某个物体的颜色、材质甚至形状,同时还能保持这个物体本身的‘身份’(比如一辆特定的汽车型号)和周围场景不变,效果比现有技术更好。
FlowAct-R1:迈向交互式人形视频生成 / FlowAct-R1: Towards Interactive Humanoid Video Generation
这篇论文提出了一个名为FlowAct-R1的新框架,它能够实时生成栩栩如生、能与用户持续互动的人形角色视频,在保证高质量画面的同时,实现了低延迟和流畅的交互体验。
请先 登录 后再提交论文