CauSight:学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery
1️⃣ 一句话总结
这篇论文提出了一个名为CauSight的新模型,它能够像人一样从图片中识别出事物之间的因果关系,而不仅仅是看到它们,并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法,在视觉因果发现任务上显著超越了GPT-4等现有模型。
请先 登录 后再提交论文
CauSight:学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery
这篇论文提出了一个名为CauSight的新模型,它能够像人一样从图片中识别出事物之间的因果关系,而不仅仅是看到它们,并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法,在视觉因果发现任务上显著超越了GPT-4等现有模型。
UnicEdit-10M:通过统一验证打破规模与质量壁垒,赋能推理增强编辑的数据集与基准 / UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
这篇论文提出了一个名为UnicEdit-10M的大规模高质量图像编辑数据集,以及一个能精细评估模型在空间和知识推理方面能力的综合基准UnicBench,旨在解决开源模型因缺乏优质数据而落后于闭源模型的问题。
PAI-Bench:面向物理人工智能的综合基准测试 / PAI-Bench: A Comprehensive Benchmark For Physical AI
这篇论文提出了一个名为PAI-Bench的综合基准测试,用于系统评估当前多模态大模型和视频生成模型在理解和预测真实世界物理规律方面的能力,结果发现这些模型在物理连贯性和因果推理上仍存在明显不足。
DiG-Flow:基于差异引导的流匹配方法,用于构建鲁棒的视觉-语言-动作模型 / DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
这篇论文提出了一种名为DiG-Flow的新方法,它通过计算和利用观测与动作特征之间的分布差异来引导模型训练,从而显著提升了视觉-语言-动作模型在复杂任务和场景变化下的鲁棒性和性能。
听觉有助于视觉吗?探究音频-视频联合去噪对视频生成的影响 / Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
这篇论文通过实验证明,在视频生成训练中同时加入音频去噪任务,即使最终只关注视频质量,也能通过让模型学习视觉事件与声音之间的因果关系,从而生成动态更真实、物理规律更准确的视频。
重新审视视觉推理泛化中冗长思维链的必要性 / Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
这项研究发现,在训练视觉语言模型进行视觉推理时,使用简短且仅包含关键定位步骤的思维链数据,比使用冗长或包含图像操作的复杂思维链,能带来更好的泛化能力和最终性能。
DualCamCtrl:用于几何感知相机控制视频生成的双分支扩散模型 / DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
这篇论文提出了一个名为DualCamCtrl的新模型,它通过同时生成颜色和深度视频的双分支框架,并利用语义引导的融合机制,显著提升了根据指定相机轨迹生成视频的准确性和几何一致性,比之前的方法减少了超过40%的相机运动误差。
Video4Spatial:通过上下文引导的视频生成迈向视觉空间智能 / Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
这篇论文提出了一个名为Video4Spatial的框架,它证明仅通过视频数据训练的视频生成模型,就能像人一样理解复杂的空间关系,并成功完成场景导航和物体定位等需要空间推理的任务。
YingVideo-MV:音乐驱动的多阶段视频生成 / YingVideo-MV: Music-Driven Multi-Stage Video Generation
这篇论文提出了首个音乐驱动的长视频生成框架YingVideo-MV,它通过分析音乐语义、规划镜头、并控制摄像机运动,能自动合成出与音乐节奏和情感高度同步的高质量音乐表演视频。
TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。