PAI-Bench:面向物理人工智能的综合基准测试 / PAI-Bench: A Comprehensive Benchmark For Physical AI
1️⃣ 一句话总结
这篇论文提出了一个名为PAI-Bench的综合基准测试,用于系统评估当前多模态大模型和视频生成模型在理解和预测真实世界物理规律方面的能力,结果发现这些模型在物理连贯性和因果推理上仍存在明显不足。
请先 登录 后再提交论文
PAI-Bench:面向物理人工智能的综合基准测试 / PAI-Bench: A Comprehensive Benchmark For Physical AI
这篇论文提出了一个名为PAI-Bench的综合基准测试,用于系统评估当前多模态大模型和视频生成模型在理解和预测真实世界物理规律方面的能力,结果发现这些模型在物理连贯性和因果推理上仍存在明显不足。
BlockVid:用于高质量、一致性分钟级视频生成的块扩散模型 / BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
这篇论文提出了一个名为BlockVid的新方法,通过改进块扩散技术、引入语义感知缓存和新的训练策略,有效解决了生成长视频时常见的错误累积和连贯性问题,并在新建立的评测基准上显著超越了现有方法,能够生成更高质量、更连贯的分钟级长视频。
Envision:面向因果世界过程洞察的统一理解与生成基准 / Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
这篇论文提出了一个名为Envision的新基准,用于评估AI模型在理解和生成随时间展开的、符合因果关系的多图像序列方面的能力,发现现有模型在动态世界过程建模和时空一致性方面仍面临核心挑战。
我们距离真正有用的深度研究智能体还有多远? / How Far Are We from Genuinely Useful Deep Research Agents?
这篇论文通过建立一个包含结构化检查项的新评估标准和对主流研究智能体生成报告的失败模式分析,发现当前自动研究智能体的主要瓶颈不在于理解任务,而在于整合证据、验证事实和制定稳健的推理计划。
WiseEdit:评估认知与创意驱动的图像编辑能力的基准 / WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
这篇论文提出了一个名为WiseEdit的新基准测试,它通过模拟人类认知创作过程来全面评估图像编辑模型在知识推理和创意生成方面的能力,揭示了当前先进模型的局限性。
IndicParam:评估大语言模型在低资源印度语言上的基准 / IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
该论文提出了一个名为IndicParam的人工标注基准,包含超过1.3万道选择题,用于系统评估大语言模型在11种低资源印度语言上的表现,结果显示即使是顶尖模型在这些语言上的平均准确率也不足50%,揭示了跨语言迁移的局限性。
从像素到感受:对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
这篇论文通过构建一个评估基准和提出一种后训练方法,成功让多模态大模型学会像人类一样感知图像的主观特性(如是否令人难忘、有趣或美观),并证明了这种能力能有效提升图像生成等下游任务的人本化水平。
SO-Bench:多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs
这篇论文提出了一个名为SO-Bench的新基准,专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式(如JSON)的结构化输出的能力,发现现有模型在此方面仍有不足,并通过训练实验展示了改进的可能性。
RefineBench:通过清单评估语言模型的精炼能力 / RefineBench: Evaluating Refinement Capability of Language Models via Checklists
这篇论文提出了一个名为RefineBench的新基准测试,发现当前最先进的语言模型在没有外部指导的情况下,很难有效地自我修正错误答案,但在获得明确反馈后却能大幅改进,这揭示了模型自我精炼能力的局限性。
DiffSeg30k:一个用于局部AIGC检测的多轮扩散编辑基准数据集 / DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
这篇论文提出了一个包含3万张扩散编辑图像的数据集DiffSeg30k,将AI生成内容检测从简单的图像分类提升到像素级定位,帮助更精确地识别和定位被AI修改的图像区域。