arXiv ID:
2601.20552
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
1️⃣ 一句话总结
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
作为世界模型的视频生成:一种关于状态与动态的机制性视角 / A Mechanistic View on Video Generation as World Models: State and Dynamics
这篇论文提出了一种新的分类框架,将视频生成模型视为潜在的世界模型,并主张通过关注模型如何构建内部“状态”以及如何模拟动态变化来提升其物理连贯性和因果推理能力,从而推动该领域从生成逼真视频迈向构建通用的世界模拟器。
编码化的伏笔-照应文本生成 / Codified Foreshadowing-Payoff Text Generation
这篇论文提出了一个名为CFPG的新框架,通过将故事中的‘伏笔’与‘照应’关系编码成可执行的因果规则,来帮助大语言模型更好地生成前后逻辑连贯、能兑现早期承诺的叙事文本,而不仅仅是表面流畅的文字。
扩展行为克隆提升因果推理:一个用于实时电子游戏游玩的开源模型 / Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
这篇论文通过开源大量游戏数据和模型,证明了在行为克隆任务中,同时扩大模型规模和训练数据量不仅能提升模型玩3D游戏的水平,还能使其学会更具因果推理能力的策略。
阿里阿德涅项目:一个用于审计LLM智能体忠实度的结构因果框架 / Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
这篇论文提出了一个名为‘阿里阿德涅项目’的新框架,它通过结构因果模型和反事实推理来检测大型语言模型智能体给出的推理过程是否真实驱动了其决策,结果发现模型常常‘说一套做一套’,其解释可能只是事后的合理化而非真实的决策依据。
GraphLocator:基于图引导因果推理的软件问题定位方法 / GraphLocator: Graph-guided Causal Reasoning for Issue Localization
这篇论文提出了一种名为GraphLocator的新方法,它通过构建因果问题图来模拟软件问题背后的逻辑关系,从而更准确地自动定位需要修改的源代码位置,有效解决了自然语言描述与代码实现之间的语义鸿沟问题。
全能天气:用于天气生成与理解的统一多模态基础模型 / Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding
这篇论文提出了首个名为‘Omni-Weather’的统一多模态基础模型,它在一个架构内同时处理天气的生成与理解任务,通过共享机制和因果推理数据集,不仅提升了性能,还证明了这两类任务可以相互促进。
Envision:面向因果世界过程洞察的统一理解与生成基准 / Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
这篇论文提出了一个名为Envision的新基准,用于评估AI模型在理解和生成随时间展开的、符合因果关系的多图像序列方面的能力,发现现有模型在动态世界过程建模和时空一致性方面仍面临核心挑战。
C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
VADER:利用关系感知大语言模型实现因果视频异常理解 / VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
这项研究提出了一个名为VADER的智能框架,通过结合大语言模型与视频中物体间的动态关系分析,不仅能识别异常行为,还能深入解释异常事件的因果缘由,显著提升了视频异常理解的准确性和可解释性。
请先 登录 后再提交论文