DraCo:将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
1️⃣ 一句话总结
这篇论文提出了一种名为DraCo的新方法,它通过先生成低分辨率草稿图像进行预览和视觉规划,再利用模型自身能力进行语义验证和选择性修正,从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。
请先 登录 后再提交论文
DraCo:将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
这篇论文提出了一种名为DraCo的新方法,它通过先生成低分辨率草稿图像进行预览和视觉规划,再利用模型自身能力进行语义验证和选择性修正,从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。
子弹时间:用于视频生成的时空解耦控制框架 / BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
这篇论文提出了一个名为‘子弹时间’的新框架,它能够像独立调节时间和摄像机视角一样,分别精确控制生成视频中场景的动态变化和拍摄角度,从而解决了现有视频生成模型难以实现精细时空控制的问题。
EgoLCD:基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion
这篇论文提出了一种名为EgoLCD的新方法,通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频,有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。
QKAN-LSTM:量子启发的Kolmogorov-Arnold长短期记忆网络 / QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory
这篇论文提出了一种名为QKAN-LSTM的新型循环神经网络,它通过引入量子启发的激活模块,在保持经典硬件可运行的同时,大幅提升了模型对复杂时间序列的预测能力,并减少了近80%的训练参数。
C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
MagicQuillV2:基于分层视觉提示的精确交互式图像编辑 / MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
这篇论文提出了一个名为MagicQuillV2的新系统,它通过将图像编辑意图分解为内容、位置、结构和颜色等多个可独立控制的分层视觉提示,从而让用户能像使用传统图形软件一样,对AI生成过程进行更直观和精细的控制。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
面具可能成为干扰:论扩散语言模型中的上下文理解 / Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
这篇论文研究发现,新型的掩码扩散语言模型在理解文本上下文时存在两个主要问题:一是过分关注局部信息而忽略远处内容,二是生成文本所需的额外掩码符号会严重干扰模型对原始信息的处理;作者通过提出一种新的训练方法,有效减少了掩码的干扰,提升了模型的稳健性。
Skywork-R1V4:通过图像与深度研究的交替思考迈向具身多模态智能 / Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
这篇论文提出了一个名为Skywork-R1V4的新型多模态智能体模型,它通过将图像处理与网络搜索深度结合并交替推理,仅用少量高质量数据训练就实现了超越现有顶尖模型的复杂任务解决能力。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。