arXiv ID:
2511.23469
视觉生成调优 / Visual Generation Tuning
1️⃣ 一句话总结
这项研究提出了一种名为VGT的新方法,能够高效地激发现有视觉语言模型的视觉生成潜力,使其在图像重建和生成任务上取得优异表现,为构建下一代统一的多模态基础模型开辟了新途径。
视觉生成调优 / Visual Generation Tuning
这项研究提出了一种名为VGT的新方法,能够高效地激发现有视觉语言模型的视觉生成潜力,使其在图像重建和生成任务上取得优异表现,为构建下一代统一的多模态基础模型开辟了新途径。
LFM2技术报告 / LFM2 Technical Report
这篇论文提出了一个名为LFM2的系列模型,它专门为在手机等边缘设备上高效运行而设计,通过创新的架构和训练方法,在保持强大任务处理能力的同时,实现了比同类模型更快的推理速度和更低的内存占用。
SimScale:通过大规模真实世界仿真学习驾驶 / SimScale: Learning to Drive via Real-World Simulation at Scale
这篇论文提出了一个名为SimScale的新型仿真框架,它能够利用现有的真实驾驶数据,通过神经渲染和反应式环境生成大量高保真、多样化的模拟驾驶场景,并配合一种伪专家轨迹生成机制来提供训练监督,从而显著提升自动驾驶规划模型在安全关键和罕见场景下的鲁棒性与泛化能力,且其性能提升仅需增加模拟数据即可平滑扩展。
让生成模型更直更快:基于修正轨迹的MeanFlow高效一步生成建模 / Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories
这篇论文提出了一种名为Rectified MeanFlow的新方法,它通过结合修正轨迹和平均速度建模,只用一次优化步骤就能训练出高质量、高效率的一步生成模型,避免了现有方法需要多次迭代或训练不稳定的问题。
每个词元都重要:在大型语言模型中实现1600万超长上下文的泛化 / Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
这篇论文提出了一种名为‘分层稀疏注意力’的新方法,并将其集成到模型中,成功让一个80亿参数的AI模型能够高效处理和记住长达1600万个词的超长文本信息,在多项测试中表现出色。
大规模视觉桥接变换器 / Vision Bridge Transformer at Scale
这篇论文提出了一种名为ViBT的大规模视觉桥接变换器模型,它通过直接建模输入与输出之间的转换路径,而非从噪声生成数据,从而高效地实现了图像和视频的编辑与翻译任务,并在高达200亿参数的规模上验证了其有效性。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。
BlockVid:用于高质量、一致性分钟级视频生成的块扩散模型 / BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
这篇论文提出了一个名为BlockVid的新方法,通过改进块扩散技术、引入语义感知缓存和新的训练策略,有效解决了生成长视频时常见的错误累积和连贯性问题,并在新建立的评测基准上显著超越了现有方法,能够生成更高质量、更连贯的分钟级长视频。
ORION:教导语言模型以思维语言进行高效推理 / ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
这篇论文提出了一个名为ORION的新框架,它通过训练模型使用一种类似人类‘思维语言’的压缩、结构化符号进行推理,从而在保持高准确率的同时,大幅减少了计算所需的步骤和成本,实现了更高效、更快速的AI推理。
VQRAE:用于多模态理解、生成与重建的表征量化自编码器 / VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
这篇论文提出了一个名为VQRAE的新型统一模型,它能够在一个框架内同时处理图像的理解、生成和精细重建任务,其核心创新在于使用一个高维语义编码本将连续语义特征和离散生成令牌统一起来。
请先 登录 后再提交论文