arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.21583

🤖 系统

10-27 20:52

flow matching text-to-image generation reinforcement learning preference alignment temporal dynamics

📄 论文总结

基于块级优化的流匹配文本到图像生成强化学习方法 / Chunk-GRPO: Chunk-level Optimization for Flow Matching Text-to-Image Generation

1️⃣ 一句话总结

本文提出Chunk-GRPO方法，通过将连续时间步分组为反映时间动态的块进行块级优化，解决了传统GRPO方法中的优势分配不准确和忽略时间动态性问题，在偏好对齐和图像质量方面取得了显著提升。

2️⃣ 论文创新点

1. 块级优化框架

创新点：将优化粒度从步级转移到块级，将连续时间步分组为连贯的块作为优化单元，基于块似然重新定义重要性比例
区别/改进：解决了步级GRPO中优势分配不准确的问题，通过块级联合优化比独立时间步优化性能更好
意义：在偏好对齐和标准文生图基准测试中实现了优越性能

2. 时间动态引导的分块

创新点：基于中间潜在表示的相对L1距离分析时间动态模式，将时间步分组为反映固有时间动态的块
区别/改进：避免了任意分块，确保分块由时间动态模式引导，使优化过程与流匹配的内在时间结构对齐
意义：更准确地捕捉生成过程中的时间相关性，提升优化效果

3. 加权采样策略

创新点：可选的加权采样方法，考虑不同分块对最终图像的贡献差异，基于相对L1距离计算权重
区别/改进：补充块级优化的效果，非均匀采样，偏向高噪声区域
意义：加速偏好对齐但可能破坏高噪声区域的图像结构，揭示了加速优化与图像结构稳定性之间的权衡关系

3️⃣ 主要结果与价值

结果亮点

在偏好对齐方面相比基线和Dance-GRPO获得高达23%的提升
在WISE基准测试上均优于基线和Dance-GRPO
时间动态引导的分块设置([2,3,4,7])相比固定分块大小取得更好性能
在不同奖励模型(HPSv3、PickScore、Clip)下均优于标准步级GRPO，展示了泛化能力和鲁棒性

实际价值

提高了文本到图像生成模型与人类偏好的对齐质量
为基于流匹配的生成模型提供了更有效的强化学习训练方法
通过块级优化提高了强化学习在生成任务中的训练效率和效果

4️⃣ 术语表

Chunk-GRPO：基于块级的GRPO方法，用于流匹配的文本到图像生成，通过时间动态引导的分块和块级重要性比例进行优化
GRPO：Group Relative Policy Optimization，群体相对策略优化
流匹配：一种生成模型方法，直接回归估计的速度场，通过最小化目标函数来匹配数据分布和噪声分布
块级重要性比例：基于块似然重新定义的重要性比例，替代传统的步级比例
L1_rel：相对L1距离，衡量相邻潜在表示之间的变化程度
HPSv3：人类偏好评分模型v3，用作主要奖励模型和域内评估指标
优势归因：优势归因，指将优势值分配到不同时间步的过程

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.21583

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 块级优化框架

2. 时间动态引导的分块

3. 加权采样策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.21583 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 块级优化框架

2. 时间动态引导的分块

3. 加权采样策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.21583