TV2TV:一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation
1️⃣ 一句话总结
这篇论文提出了一个名为TV2TV的新框架,它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤,来提升复杂视频的生成质量和可控性,使其能更好地理解和执行用户指令。
请先 登录 后再提交论文
TV2TV:一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation
这篇论文提出了一个名为TV2TV的新框架,它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤,来提升复杂视频的生成质量和可控性,使其能更好地理解和执行用户指令。
GoRL:一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
这篇论文提出了一个名为GoRL的新框架,它通过将策略的优化过程与动作生成过程分离,巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾,从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。
DiG-Flow:基于差异引导的流匹配方法,用于构建鲁棒的视觉-语言-动作模型 / DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
这篇论文提出了一种名为DiG-Flow的新方法,它通过计算和利用观测与动作特征之间的分布差异来引导模型训练,从而显著提升了视觉-语言-动作模型在复杂任务和场景变化下的鲁棒性和性能。
对抗流模型 / Adversarial Flow Models
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
终端速度匹配 / Terminal Velocity Matching
这项研究提出了一种名为终端速度匹配的新方法,通过优化扩散模型在生成结束时的行为,实现了仅需1到4步就能生成高质量图像,在ImageNet数据集上取得了当前最优的单步/少步生成效果。
UniLumos:基于物理可信反馈的快速统一图像与视频重光照方法 / UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
本研究提出了一种名为UniLumos的统一图像与视频重光照框架,它通过引入基于RGB空间的几何反馈机制来提升光照效果的物理真实性,并在保持高质量输出的同时实现了20倍的加速。
分步采样,分块优化:面向文本到图像生成的分块级GRPO方法 / Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation
这项研究提出了一种名为Chunk-GRPO的新方法,通过将文本生成图像的连续步骤组合成‘块’进行优化,有效提升了图像质量和与人类偏好的对齐程度,克服了传统方法在优势分配和时间动态建模上的不足。
AlphaFlow:理解与改进MeanFlow模型 / AlphaFlow: Understanding and Improving MeanFlow Models
这篇论文发现现有MeanFlow生成模型存在优化冲突问题,并提出了一种新的AlphaFlow方法,通过渐进式训练策略有效解决了冲突,在图像生成任务上取得了更快的收敛速度和更好的性能表现。
pi-Flow:通过模仿蒸馏实现基于策略的少步生成 / pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
这篇论文提出了一种名为pi-Flow的新方法,通过让模型学习一个简单策略来模仿教师模型的生成路径,从而在保持图像质量的同时用更少的步骤生成多样化的图像,解决了现有方法在质量和多样性之间的权衡问题。