通过高效启发式辅助构造实现金牌级别的奥数几何解题 / Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions
1️⃣ 一句话总结
这篇论文提出了一种名为HAGeo的高效几何定理证明方法,它不依赖神经网络,仅通过启发式策略添加辅助点线,就在国际数学奥林匹克级别的几何题上达到了金牌选手的解题水平,并超越了之前的神经网络方法。
请先 登录 后再提交论文
通过高效启发式辅助构造实现金牌级别的奥数几何解题 / Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions
这篇论文提出了一种名为HAGeo的高效几何定理证明方法,它不依赖神经网络,仅通过启发式策略添加辅助点线,就在国际数学奥林匹克级别的几何题上达到了金牌选手的解题水平,并超越了之前的神经网络方法。
使用VideoScience-Bench对视频生成模型的科学理解与推理能力进行基准测试 / Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
这篇论文提出了首个专门用于评估视频生成模型是否具备本科水平的科学理解与推理能力的基准测试VideoScience-Bench,它通过涵盖物理和化学的200个复杂科学场景提示,来检验模型生成内容是否符合真实世界的科学规律。
我们距离真正有用的深度研究智能体还有多远? / How Far Are We from Genuinely Useful Deep Research Agents?
这篇论文通过建立一个包含结构化检查项的新评估标准和对主流研究智能体生成报告的失败模式分析,发现当前自动研究智能体的主要瓶颈不在于理解任务,而在于整合证据、验证事实和制定稳健的推理计划。
SO-Bench:多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs
这篇论文提出了一个名为SO-Bench的新基准,专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式(如JSON)的结构化输出的能力,发现现有模型在此方面仍有不足,并通过训练实验展示了改进的可能性。
视频推理:通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力,发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型,并能通过多样化采样提升推理可靠性。
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
MVU-Eval:面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
这篇论文提出了首个多视频理解评估基准MVU-Eval,通过涵盖近5000个视频的1800多个问题,系统评估多模态大模型在跨视频感知与推理方面的能力,揭示了现有模型在处理多视频任务时的显著不足。
ROVER:面向全模态生成的互惠跨模态推理基准评测 / ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
这篇论文提出了一个名为ROVER的基准测试,用于评估统一多模态模型在图像和文本之间进行双向推理的能力,发现跨模态推理对生成质量至关重要,并揭示了模型在物理和符号推理上的表现差异。
方言生成:多模态生成中的方言鲁棒性基准测试与改进 / DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation
这篇论文发现当前最先进的多模态生成模型在处理方言输入时性能显著下降,并提出了一种新的编码器方法,能在不损害标准英语性能的前提下,大幅提升模型对多种方言的理解和生成能力。
Diff-XYZ:一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding
这篇论文提出了一个名为Diff-XYZ的基准测试,用于评估大型语言模型理解和处理代码变更的能力,并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。