EgoLCD:基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion
1️⃣ 一句话总结
这篇论文提出了一种名为EgoLCD的新方法,通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频,有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。
请先 登录 后再提交论文
EgoLCD:基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion
这篇论文提出了一种名为EgoLCD的新方法,通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频,有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。
QKAN-LSTM:量子启发的Kolmogorov-Arnold长短期记忆网络 / QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory
这篇论文提出了一种名为QKAN-LSTM的新型循环神经网络,它通过引入量子启发的激活模块,在保持经典硬件可运行的同时,大幅提升了模型对复杂时间序列的预测能力,并减少了近80%的训练参数。
C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
MagicQuillV2:基于分层视觉提示的精确交互式图像编辑 / MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues
这篇论文提出了一个名为MagicQuillV2的新系统,它通过将图像编辑意图分解为内容、位置、结构和颜色等多个可独立控制的分层视觉提示,从而让用户能像使用传统图形软件一样,对AI生成过程进行更直观和精细的控制。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
面具可能成为干扰:论扩散语言模型中的上下文理解 / Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
这篇论文研究发现,新型的掩码扩散语言模型在理解文本上下文时存在两个主要问题:一是过分关注局部信息而忽略远处内容,二是生成文本所需的额外掩码符号会严重干扰模型对原始信息的处理;作者通过提出一种新的训练方法,有效减少了掩码的干扰,提升了模型的稳健性。
Skywork-R1V4:通过图像与深度研究的交替思考迈向具身多模态智能 / Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
这篇论文提出了一个名为Skywork-R1V4的新型多模态智能体模型,它通过将图像处理与网络搜索深度结合并交替推理,仅用少量高质量数据训练就实现了超越现有顶尖模型的复杂任务解决能力。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。
WUSH:面向大语言模型量化的近乎最优自适应变换 / WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
这篇论文提出了一种名为WUSH的新型自适应变换方法,它通过结合哈达玛变换和数据统计信息,为降低大语言模型量化过程中的动态范围提供了理论最优且易于实现的解决方案,从而有效提升了量化模型的性能。
基于上下文同步LoRA的人像视频编辑 / In-Context Sync-LoRA for Portrait Video Editing
这篇论文提出了一种名为Sync-LoRA的新方法,它通过使用少量经过严格筛选的同步人像视频进行训练,能够在对人像视频进行外观、表情或背景等多样化编辑的同时,精确保持原始视频中人物的动作轨迹和身份一致性。