ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
1️⃣ 一句话总结
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
请先 登录 后再提交论文
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
CauSight:学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery
这篇论文提出了一个名为CauSight的新模型,它能够像人一样从图片中识别出事物之间的因果关系,而不仅仅是看到它们,并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法,在视觉因果发现任务上显著超越了GPT-4等现有模型。
UnicEdit-10M:通过统一验证打破规模与质量壁垒,赋能推理增强编辑的数据集与基准 / UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
这篇论文提出了一个名为UnicEdit-10M的大规模高质量图像编辑数据集,以及一个能精细评估模型在空间和知识推理方面能力的综合基准UnicBench,旨在解决开源模型因缺乏优质数据而落后于闭源模型的问题。
DigiData:通用移动控制智能体的训练与评估 / DigiData: Training and Evaluating General-Purpose Mobile Control Agents
这篇论文提出了一个高质量、多样化的移动控制智能体训练数据集DigiData,并创建了配套的评估基准DigiData-Bench,通过更可靠的动态和AI驱动评估方法,推动能执行复杂任务的通用移动控制智能体的发展。
PHUMA:基于物理的人形机器人运动数据集 / PHUMA: Physically-Grounded Humanoid Locomotion Dataset
这篇论文提出了一个名为PHUMA的大规模人形机器人运动数据集,通过物理约束优化解决了现有数据中常见的漂浮、穿透和脚滑等问题,从而在模仿人类动作时表现更稳定、多样且优于现有方法。
COIG-Writer:一个包含思维过程的高质量中文创意写作数据集 / COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
这篇论文提出了一个名为COIG-Writer的中文创意写作数据集,它不仅包含多样化的文本输出,还揭示了背后的创作思维过程,研究发现创意写作的成功依赖于逻辑框架与语言表达的结合,且创意能力具有文化依赖性,无法跨语言迁移。
MARS2 2025多模态推理挑战赛:数据集、方法、结果、讨论与展望 / MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook
这篇论文介绍了MARS2 2025多模态推理挑战赛,通过发布两个新数据集和三个竞赛赛道,评估了40多个模型,旨在推动多模态大语言模型在真实世界和专业化场景中的应用发展。
OmniWorld:用于4D世界建模的多领域多模态数据集 / OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
这篇论文提出了一个名为OmniWorld的大规模多领域多模态数据集,旨在解决4D世界建模领域高质量数据不足的问题,并通过实验证明该数据集能显著提升现有方法在4D重建和视频生成任务上的性能。
InternScenes:一个具有真实布局的大规模可模拟室内场景数据集 / InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
这篇论文提出了一个名为InternScenes的大规模可模拟室内场景数据集,它通过整合多种来源的场景数据并保留大量小物品,解决了现有数据集在规模、多样性和布局真实性方面的不足,为具身AI任务如场景生成和导航提供了更复杂和真实的训练环境。
CMHG:中国少数民族语言标题生成数据集与基准 / CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
该研究创建了一个专门用于中国少数民族语言(如藏语、维吾尔语和蒙古语)标题生成任务的数据集和评估基准,以解决因文字系统差异导致的数据稀缺问题。