PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
1️⃣ 一句话总结
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
请先 登录 后再提交论文
PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
CLaRa:通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
这篇论文提出了一个名为CLaRa的统一框架,通过将检索和生成过程整合到同一个连续空间中进行联合优化,有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题,并在多个问答基准测试中取得了领先性能。
手动解码的终结:迈向真正端到端的语言模型 / The End of Manual Decoding: Towards Truly End-to-End Language Models
这篇论文提出了一种名为AutoDeco的新型架构,让语言模型能够自己学习并动态调整解码策略,无需人工干预调参,实现了真正的端到端生成,并能根据自然语言指令实时控制输出风格。
NaViL:数据约束下重新思考原生多模态大语言模型的扩展特性 / NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
这项研究提出了一种名为NaViL的原生多模态大模型,通过端到端训练方式探索了视觉编码器与大语言模型之间的正向扩展关系,并在14个基准测试中验证了其高效且具有竞争力的性能。