arXiv最新AI论文速览速学

🔍

标签: #flow matching ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Exploring Time Conditioning in Diffusion Generative Models from Disjoint Noisy Data Manifolds 04-29

arXiv ID: 2601.09881

arXiv 提交日期: 2026-01-14

video generation model training aigc knowledge distillation diffusion models flow matching text-to-video efficient inference

用于快速视频生成的过渡匹配蒸馏 / Transition Matching Distillation for Fast Video Generation

1️⃣ 一句话总结

这项研究提出了一种名为‘过渡匹配蒸馏’的新方法，它通过将大型视频扩散模型的知识压缩到轻量级条件流模型中，在保持视频生成质量的同时，大幅提升了生成速度，使其更适用于实时交互应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04233

arXiv 提交日期: 2026-01-04

audio multi-modal model training speech synthesis multilingual dataset speech editing flow matching zero-shot

LEMAS：一个包含生成式语音模型的150K小时大规模可扩展多语言音频套件 / LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models

1️⃣ 一句话总结

这篇论文发布了一个目前最大的开源多语言语音数据集LEMAS，并基于它训练了两个高效的语音生成与编辑模型，证明了该数据集能有效推动高质量、多语言的语音合成与编辑技术发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.00423

arXiv 提交日期: 2026-01-01

model training reinforcement learning machine learning flow matching preference alignment policy optimization stochastic differential equations entropy sampling

E-GRPO：高熵步骤驱动流模型的有效强化学习 / E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

1️⃣ 一句话总结

这篇论文提出了一种名为E-GRPO的新强化学习方法，它通过智能地合并低熵步骤来创造高熵采样步骤，从而解决了现有方法在训练流模型时因奖励信号稀疏模糊而导致的探索效率低下问题，有效提升了模型与人类偏好对齐的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22374

arXiv 提交日期: 2025-12-26

model training aigc multi-modal text-to-image flow matching self-evaluation any-step inference from-scratch training

自评估解锁任意步数的文本到图像生成 / Self-Evaluation Unlocks Any-Step Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为Self-E的全新训练方法，它通过让模型在训练时自我评估生成图像的质量，实现了无需预训练教师模型、能从零开始训练，并且能在任意推理步数（从几步到几十步）下都生成高质量图像的文本到图像生成模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.18184

arXiv 提交日期: 2025-12-20

model training machine learning computer vision flow matching generative modeling source distribution sampling efficiency image generation

是否存在比高斯分布更好的源分布？探索图像流匹配的源分布 / Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching

1️⃣ 一句话总结

本文通过一个可解释的二维模拟实验，揭示了流匹配模型在训练中的关键动态，并基于此提出了一个结合范数对齐训练与方向性剪枝采样的实用框架，该框架能在不重新训练的情况下，直接提升现有基于高斯源分布的流匹配模型的生成质量和采样效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.18099

arXiv 提交日期: 2025-12-19

audio multi-modal model training audio source separation diffusion transformer flow matching multimodal prompting foundation model

SAM音频：分割任意音频 / SAM Audio: Segment Anything in Audio

1️⃣ 一句话总结

这篇论文提出了一个名为SAM Audio的通用音频分割基础模型，它能够通过文本、视觉或时间片段等多种提示方式，灵活地从混合音频中分离出目标声音（如语音、音乐或一般声响），并在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13421

arXiv 提交日期: 2025-12-15

model training computer vision multi-modal visual tokenizer flow matching semantic distillation diffusion transformer latent space

RecTok：基于修正流的重建蒸馏方法 / RecTok: Reconstruction Distillation along Rectified Flow

1️⃣ 一句话总结

这篇论文提出了一种名为RecTok的新方法，通过两种创新的蒸馏技术，成功解决了视觉分词器在高维空间中性能下降的问题，从而在保持图像高保真重建的同时，显著提升了AI图像生成的质量和语义理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11438

arXiv 提交日期: 2025-12-12

video generation model training aigc flow matching non-autoregressive video interpolation temporal modeling variable-length generation

Flowception：用于视频生成的时间扩展流匹配方法 / Flowception: Temporally Expansive Flow Matching for Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为Flowception的新型视频生成方法，它通过交替插入新帧和优化已有帧来高效生成高质量、长度可变的视频，相比传统方法减少了计算开销和误差累积，并能同时处理图像生成视频和视频插帧等任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06951

arXiv 提交日期: 2025-12-07

robotics computer vision multi-modal vision-language-action behavior challenge flow matching bimanual manipulation action compression

视觉-语言-动作模型的任务自适应：2025年BEHAVIOR挑战赛冠军解决方案 / Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

1️⃣ 一句话总结

这篇论文介绍了一种在复杂家庭任务模拟挑战赛中夺冠的智能体策略，它通过引入相关噪声生成平滑动作、使用可学习注意力机制解决任务歧义，并优化了训练与推理过程，从而在50项多样化任务中取得了优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05103

arXiv 提交日期: 2025-12-04

video generation multi-modal model training text-to-video interleaved generation reasoning flow matching mixture-of-transformers

TV2TV：一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为TV2TV的新框架，它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤，来提升复杂视频的生成质量和可控性，使其能更好地理解和执行用户指令。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.09881

1️⃣ 一句话总结

arXiv ID: 2601.04233

1️⃣ 一句话总结

arXiv ID: 2601.00423

1️⃣ 一句话总结

arXiv ID: 2512.22374

1️⃣ 一句话总结

arXiv ID: 2512.18184

1️⃣ 一句话总结

arXiv ID: 2512.18099

1️⃣ 一句话总结

arXiv ID: 2512.13421

1️⃣ 一句话总结

arXiv ID: 2512.11438

1️⃣ 一句话总结

arXiv ID: 2512.06951

1️⃣ 一句话总结

arXiv ID: 2512.05103

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.09881 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04233 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.00423 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22374 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.18184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.18099 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13421 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11438 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06951 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05103 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.09881

arXiv ID: 2601.04233

arXiv ID: 2601.00423

arXiv ID: 2512.22374

arXiv ID: 2512.18184

arXiv ID: 2512.18099

arXiv ID: 2512.13421

arXiv ID: 2512.11438

arXiv ID: 2512.06951

arXiv ID: 2512.05103