arXiv最新AI论文速览速学

🔍

标签: #autoregressive generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Accelerating Speculative Decoding with Block Diffusion Draft Trees 04-15

arXiv ID: 2604.12989

arXiv 提交日期: 2026-04-14

llm model training systems speculative decoding inference acceleration diffusion models autoregressive generation attention masking

利用块扩散草稿树加速推测解码 / Accelerating Speculative Decoding with Block Diffusion Draft Trees

1️⃣ 一句话总结

这篇论文提出了一种名为DDTree的新方法，它通过改进现有的块扩散草稿模型，构建一个多分支的“草稿树”来预测更多可能的后续文本，从而让大型语言模型在生成文本时能一次性验证多个候选路径，显著提升了文本生成的速度和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18599

arXiv 提交日期: 2026-03-19

model training aigc multi-modal speculative decoding text-to-image inference acceleration autoregressive generation jacobi decoding

SJD-PAC：通过主动草拟与自适应延续加速推测性雅可比解码 / SJD-PAC: Accelerating Speculative Jacobi Decoding via Proactive Drafting and Adaptive Continuation

1️⃣ 一句话总结

这篇论文提出了一种名为SJD-PAC的改进方法，通过主动预测高难度区域的图像内容并允许在首次预测失败后继续尝试而非完全重来，从而在不损失图像质量的前提下，将文本生成图像的推理速度提升了约3.8倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12267

arXiv 提交日期: 2026-03-12

video generation model training aigc video tokenization autoregressive generation adaptive compression computational efficiency quality-cost trade-off

EVATok：用于高效视觉自回归生成的自适应长度视频标记化框架 / EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

1️⃣ 一句话总结

这篇论文提出了一个名为EVATok的智能视频压缩框架，它能够根据视频内容的复杂程度动态分配压缩资源，在保证高质量视频重建和生成的同时，显著减少了计算开销，比现有方法平均节省了超过24%的存储或处理资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05299

arXiv 提交日期: 2026-03-05

audio natural language processing model training speech language model self-supervised learning knowledge distillation autoregressive generation speech representation

WavSLM：通过WavLM蒸馏实现单流语音语言建模 / WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为WavSLM的新型语音语言模型，它通过将自监督语音表征蒸馏并量化为单一码本，实现了无需文本监督、仅用单一数据流就能同时建模语音的语义和声学信息，从而简化了模型结构并支持流式推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05239

arXiv 提交日期: 2026-01-08

video generation multi-modal computer vision plenoptic video multi-view consistency video re-rendering spatio-temporal coherence autoregressive generation

全光视频生成 / Plenoptic Video Generation

1️⃣ 一句话总结

本文提出了一种名为PlenopticDreamer的新框架，它通过同步生成过程中的‘幻觉’内容来保持时空一致性，从而解决了现有方法在多视角视频生成中画面不连贯的难题，实现了高质量、可控且视角多样的视频重渲染。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03955

arXiv 提交日期: 2026-01-07

computer vision model training aigc visual tokenization autoregressive generation hierarchical representation image generation residual learning

ResTok：为自回归图像生成学习一维视觉分词器中的层次化残差 / ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为ResTok的新视觉分词器，它通过引入类似视觉模型的层次化残差结构，显著提升了自回归模型生成图像的质量和效率，仅需9步就能在ImageNet-256上达到优异的生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21815

arXiv 提交日期: 2025-12-26

multi-modal model evaluation machine learning adversarial attacks vision-language models entropy model safety autoregressive generation

少数关键令牌决定成败：基于熵的视觉-语言模型攻击方法 / Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，视觉-语言模型在生成文本时，只有大约20%的关键位置（高熵令牌）对输出结果起决定性作用，通过集中攻击这些位置，就能用很小的代价让模型产生大量有害内容，从而揭示了现有模型安全机制的重大漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19680

arXiv 提交日期: 2025-12-22

model training computer vision aigc autoregressive generation variational optimization policy alignment image generation tokenizer alignment

VA-π：一种用于像素感知自回归生成的变分策略对齐方法 / VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

1️⃣ 一句话总结

这篇论文提出了一种名为VA-π的轻量级后训练框架，通过将自回归图像生成模型视为一个策略，并直接使用像素空间的重建质量作为奖励来优化它，从而有效解决了现有方法中图像编码器与生成器目标不一致导致图像质量下降的问题，仅需极少数据和极短时间就能显著提升生成图像的逼真度和多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16670

arXiv 提交日期: 2025-12-18

computer vision model training aigc neural rendering diffusion models temporal consistency g-buffer autoregressive generation

FrameDiffuser：基于G-Buffer条件扩散的神经前向帧渲染 / FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

1️⃣ 一句话总结

这篇论文提出了一种名为FrameDiffuser的新方法，它能够利用游戏场景的几何与材质信息，像放电影一样一帧接一帧地实时生成画面逼真、前后连贯的动态图像，解决了现有技术在交互应用（如游戏）中画面闪烁或计算太慢的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.10949

arXiv 提交日期: 2025-12-11

reinforcement learning model training multi-modal text-to-3d reward design autoregressive generation hierarchical optimization benchmark

我们准备好将强化学习用于文本生成3D了吗？一项渐进式研究 / Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

1️⃣ 一句话总结

这篇论文首次系统地探索了如何将强化学习应用于文本生成3D模型，通过研究奖励设计、算法改进并引入新基准，最终开发出一个能从文本描述生成从粗略形状到精细纹理的3D模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.12989

1️⃣ 一句话总结

arXiv ID: 2603.18599

1️⃣ 一句话总结

arXiv ID: 2603.12267

1️⃣ 一句话总结

arXiv ID: 2603.05299

1️⃣ 一句话总结

arXiv ID: 2601.05239

1️⃣ 一句话总结

arXiv ID: 2601.03955

1️⃣ 一句话总结

arXiv ID: 2512.21815

1️⃣ 一句话总结

arXiv ID: 2512.19680

1️⃣ 一句话总结

arXiv ID: 2512.16670

1️⃣ 一句话总结

arXiv ID: 2512.10949

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.12989 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18599 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05299 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05239 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03955 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16670 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.10949 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.12989

arXiv ID: 2603.18599

arXiv ID: 2603.12267

arXiv ID: 2603.05299

arXiv ID: 2601.05239

arXiv ID: 2601.03955

arXiv ID: 2512.21815

arXiv ID: 2512.19680

arXiv ID: 2512.16670

arXiv ID: 2512.10949