大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
1️⃣ 一句话总结
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
请先 登录 后再提交论文
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
终端速度匹配 / Terminal Velocity Matching
这项研究提出了一种名为终端速度匹配的新方法,通过优化扩散模型在生成结束时的行为,实现了仅需1到4步就能生成高质量图像,在ImageNet数据集上取得了当前最优的单步/少步生成效果。
Brain-IT:基于脑交互Transformer的功能磁共振成像图像重建 / Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
这项研究提出了一种名为Brain-IT的新方法,通过模拟大脑功能区交互的Transformer模型,能够仅用少量脑扫描数据就高精度地重建人脑看到的图像,其效果优于现有技术。
基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders
这篇论文提出用预训练的表征编码器替代传统VAE,构建新型表征自动编码器,解决了扩散变换器中潜在空间信息容量低和表示质量差的问题,从而在图像生成任务上取得了更优的效果。
ELMUR:用于长视野强化学习的具有更新/重写功能的外部层记忆 / ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL
这项研究提出了一种名为ELMUR的新型Transformer架构,它通过在每个网络层引入可更新和重写的外部记忆模块,有效解决了机器人等智能体在部分可观测环境和长序列决策中难以利用长期历史信息的问题,显著提升了任务性能。
稀疏查询注意力(SQA):一种通过减少查询头实现计算高效的新型注意力机制 / Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
这篇论文提出了一种名为稀疏查询注意力的新方法,通过减少查询头的数量直接降低计算复杂度,在长序列处理任务中能提升高达3倍的计算效率,同时基本保持模型性能不变。
RoPE背后:因果掩码如何编码位置信息? / Behind RoPE: How Does Causal Mask Encode Positional Information?
这篇论文揭示了在Transformer解码器中,除了显式位置编码(如RoPE)外,因果掩码本身也能提供位置信息,它会诱导注意力偏向邻近位置,并与RoPE相互作用,改变其相对注意力模式。
离散扩散视觉语言动作模型:将离散扩散引入视觉-语言-动作策略中的动作解码 / Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
这篇论文提出了一种名为离散扩散视觉语言动作模型的新方法,它利用离散扩散技术来解码机器人动作,实现了更灵活、高效和准确的决策过程,在多个机器人任务测试中表现优于现有主流方法。