arXiv最新AI论文速览速学

🔍

标签: #coarse-to-fine ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models 05-24

arXiv ID: 2605.19729

arXiv 提交日期: 2026-05-19

machine learning model training knowledge distillation diffusion models lightweight models coarse-to-fine

LIFT与PLACE：面向轻量级扩散模型的简单、稳定且有效的知识蒸馏框架 / LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models

1️⃣ 一句话总结

本文提出了一种名为LIFT和PLACE的知识蒸馏方法，通过将复杂的教师模型去噪过程拆解为“粗对齐”和“细精炼”两步，并引入基于误差分组的局部自适应指导，使得参数量仅为教师模型1.6%的轻量学生模型也能稳定训练并取得出色效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.14597

arXiv 提交日期: 2026-05-14

data multi-modal machine learning precipitation nowcasting diffusion model multi-source fusion mamba state-space model coarse-to-fine

VMU-Diff：一种由粗到细的多源数据融合降水临近预报框架 / VMU-Diff: A Coarse-to-fine Multi-source Data Fusion Framework for Precipitation Nowcasting

1️⃣ 一句话总结

本文提出了一种名为VMU-Diff的降水临近预报框架，它通过先使用雷达和卫星数据预测整体运动趋势（粗阶段），再借助扩散模型补充精细细节（细阶段），解决了传统方法预测模糊或产生虚假噪声的问题，在短期预报上效果显著优于现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25361

arXiv 提交日期: 2026-04-28

video generation model evaluation human motion coarse-to-fine benchmark vision language model pose analysis

HuM-Eval：一种面向人类视频评估的由粗到细框架 / HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

1️⃣ 一句话总结

该论文提出了一种名为HuM-Eval的新型视频评估框架，它先利用视觉语言模型快速判断视频整体质量，再通过分析人体姿态和运动稳定性来检查细节，从而更准确地评价AI生成的人体运动视频，并与人类主观感受高度一致。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24921

arXiv 提交日期: 2026-04-27

robotics machine learning model training vision-language-action coarse-to-fine dual-system hybrid action space asynchronous execution

Libra-VLA：通过异步粗细双系统实现学习均衡 / Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

1️⃣ 一句话总结

为了解决机器人操作中高层语义指令与底层连续动作之间的鸿沟，本文提出Libra-VLA模型，将复杂动作分解为宏观方向决策和微观精细调整两个子系统，并通过异步执行和训练难度平衡，显著提升了机器人在开放世界中的操作性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24622

arXiv 提交日期: 2026-04-27

multi-modal robotics machine learning vision-language-action action generation coarse-to-fine efficient inference flow-based policy

CF-VLA：面向视觉-语言-动作策略的高效由粗到精动作生成方法 / CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies

1️⃣ 一句话总结

本文提出了一种名为CF-VLA的两阶段动作生成框架，先快速生成粗略的动作初始状态，再单步精细修正，大幅提升了机器人动作生成的效率与性能，在多个基准测试中相比现有方法减少了75%以上的计算延迟，并取得了更高的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14273

arXiv 提交日期: 2025-12-16

multi-modal video model evaluation video question answering temporal grounding reinforcement learning video-language models coarse-to-fine

Zoom-Zero：通过时序放大进行从粗到细的强化视频理解 / Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

1️⃣ 一句话总结

这篇论文提出了一个名为Zoom-Zero的新方法，它通过‘先粗略定位、再放大细节’的两步策略，并结合创新的强化学习奖励机制，有效提升了视频问答系统在定位关键片段和生成准确答案方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06421

arXiv 提交日期: 2025-12-06

model training aigc computer vision autoregressive generation exposure bias training dynamics image generation coarse-to-fine

重新思考逐尺度自回归生成中的训练动态 / Rethinking Training Dynamics in Scale-wise Autoregressive Generation

1️⃣ 一句话总结

本文提出了一种名为“自自回归精炼”的新方法，通过改进训练过程来减少模型在生成图像时因预测误差累积导致的质量下降问题，从而高效提升现有自回归模型的生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19729

1️⃣ 一句话总结

arXiv ID: 2605.14597

1️⃣ 一句话总结

arXiv ID: 2604.25361

1️⃣ 一句话总结

arXiv ID: 2604.24921

1️⃣ 一句话总结

arXiv ID: 2604.24622

1️⃣ 一句话总结

arXiv ID: 2512.14273

1️⃣ 一句话总结

arXiv ID: 2512.06421

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19729 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.14597 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25361 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24921 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24622 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14273 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06421 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19729

arXiv ID: 2605.14597

arXiv ID: 2604.25361

arXiv ID: 2604.24921

arXiv ID: 2604.24622

arXiv ID: 2512.14273

arXiv ID: 2512.06421