arXiv ID:
2511.01846
迈向稳健的数学推理 / Towards Robust Mathematical Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准,旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力,并展示了其模型在此基准上的优异表现。
迈向稳健的数学推理 / Towards Robust Mathematical Reasoning
这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准,旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力,并展示了其模型在此基准上的优异表现。
TIR-Bench:面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
这篇论文提出了一个名为TIR-Bench的新基准测试,专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力,填补了现有测试在衡量高级视觉思维方面的不足。
外科医生离手术世界模型还有多远?关于零样本手术视频生成与专家评估的初步研究 / How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
这项研究通过专家评估发现,先进的视频生成模型虽然能生成视觉上逼真的手术视频,但在理解手术器械操作、环境反馈和手术意图等深层因果逻辑方面存在显著不足,揭示了AI在专业医疗领域模拟真实世界能力的局限性。
统一扩散VLA:通过联合离散去噪扩散过程的视觉-语言-动作模型 / Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
这篇论文提出了一种新型的视觉-语言-动作模型,通过一个联合的扩散过程同步生成未来图像和预测机器人动作,实现了多任务协同优化,在多个基准测试中取得了领先性能且推理速度更快。
基于秩-2子空间解缠的多步骤知识交互分析 / Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement
这篇论文提出了一种新的秩-2子空间解缠方法,首次实现了对大语言模型生成多步解释时内部参数知识与外部上下文知识交互的系统分析,发现幻觉解释偏向参数知识,而忠实解释则平衡两种知识。
UniLumos:基于物理可信反馈的快速统一图像与视频重光照方法 / UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
本研究提出了一种名为UniLumos的统一图像与视频重光照框架,它通过引入基于RGB空间的几何反馈机制来提升光照效果的物理真实性,并在保持高质量输出的同时实现了20倍的加速。
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。
上下文投票:将视觉语言模型转化为零样本排序融合器 / Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
这项研究提出了一种无需训练的通用框架,通过将检索结果的内容和元数据整合到视觉语言模型的提示中,使其能够像人类一样进行推理,从而在零样本条件下显著提升跨模态视频检索的准确率。
区分对待运动组件推动深度与自运动联合学习演进 / Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
这项研究提出了一种新方法,通过分别处理相机运动中的不同分量并利用几何约束,显著提升了无监督深度估计和自运动学习的准确性和鲁棒性。
Reg-DPO:利用GT-Pair和SFT正则化直接偏好优化以提升视频生成质量 / Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
本文提出了一种无需人工标注、能自动构建高质量训练数据并提升训练稳定性的视频生成优化方法,通过结合真实视频与生成视频构建对比样本并引入正则化技术,显著提高了视频生成的质量和效率。
请先 登录 后再提交论文