ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
1️⃣ 一句话总结
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
请先 登录 后再提交论文
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
SPHINX:一种用于视觉感知与推理的合成环境 / SPHINX: A Synthetic Environment for Visual Perception and Reasoning
这篇论文提出了一个名为SPHINX的合成视觉推理测试平台,通过生成包含对称检测、空间推理等25类任务的谜题来评估模型能力,发现当前最先进模型表现远低于人类水平,并验证了基于可验证奖励的强化学习方法能有效提升模型在多模态推理任务上的准确率。
俄语多模态架构评估 / Multimodal Evaluation of Russian-language Architectures
这篇论文为俄语开发了首个多模态评估框架Mera Multi,通过18个新构建的任务全面测试模型在文本、图像、音频和视频上的能力,并提供了可复用的跨语言评估方法。
多标准:在多标准遵循上对多模态评判模型进行基准测试 / Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
这篇论文提出了一个名为Multi-Crit的基准测试,用于评估多模态模型在遵循多样化、细粒度评价标准方面的能力,发现现有模型在灵活遵循多标准和保持一致性方面仍有明显不足,为构建更可靠的多模态AI评估系统奠定了基础。
基准设计者应“在测试集上训练”以暴露可利用的非视觉捷径 / Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
这篇论文提出了一种新的基准测试设计方法,要求设计者主动在测试集上训练模型来发现并消除非视觉捷径,从而确保多模态大模型评估更依赖视觉理解而非数据偏见。
可视化是推理的第一步:MIRA,一个视觉思维链基准 / When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
这篇论文提出了一个名为MIRA的新基准,用于评估人工智能模型在需要生成中间视觉图像(如草图或结构图)来辅助推理的任务上的表现,实验发现提供视觉线索能显著提升模型性能,强调了视觉想象在复杂推理中的关键作用。
VR-Thinker:通过图像思维推理提升视频奖励模型 / VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
这篇论文提出了一种名为VR-Thinker的新方法,通过让奖励模型主动选择和更新视频中的关键画面来进行视觉推理,从而显著提高了对长视频内容评估的准确性和可靠性。
BEAR:为原子化具身能力构建基准并增强多模态大语言模型 / BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities
这篇论文提出了一个名为BEAR的综合性基准测试,用于系统评估多模态大模型在感知和交互物理世界方面的基础能力,并开发了BEAR-Agent智能体来显著提升这些模型的具身能力表现。
SciVideoBench:大型多模态模型科学视频推理能力基准测试 / SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
这篇论文提出了一个专门用于评估大型多模态模型在科学视频中进行复杂推理能力的新基准测试,发现当前顶尖模型在这方面仍有明显不足,为未来AI助手在科学领域的应用提供了重要发展方向。
VStyle:基于语音指令的语音风格适应基准 / VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions
这篇论文提出了一个名为VStyle的双语基准测试,用于评估语音模型根据语音指令调整说话风格(如音色、语调)的能力,并引入了一个新的评估框架来客观衡量模型表现,发现当前模型在此任务上仍有明显局限。