arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 46 72小时内新更新论文 72h更新 120 最新: An explainable framework for the relationship between dementia and glucose metabolism patterns 01-31

arXiv ID: 2511.01846

arXiv 提交日期: 2025-11-03

llm benchmark model evaluation mathematical reasoning automated grading proof evaluation olympiad problems long-form answers

迈向稳健的数学推理 / Towards Robust Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准，旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力，并展示了其模型在此基准上的优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01833

arXiv 提交日期: 2025-11-03

benchmark agents multi-modal visual reasoning tool use image processing mllm evaluation agentic thinking

TIR-Bench：面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为TIR-Bench的新基准测试，专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力，填补了现有测试在衡量高级视觉思维方面的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01775

arXiv 提交日期: 2025-11-03

medical video generation model evaluation surgical video generation expert assessment medical ai plausibility evaluation zero-shot prediction

外科医生离手术世界模型还有多远？关于零样本手术视频生成与专家评估的初步研究 / How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

1️⃣ 一句话总结

这项研究通过专家评估发现，先进的视频生成模型虽然能生成视觉上逼真的手术视频，但在理解手术器械操作、环境反馈和手术意图等深层因果逻辑方面存在显著不足，揭示了AI在专业医疗领域模拟真实世界能力的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01718

arXiv 提交日期: 2025-11-03

multi-modal agents model training diffusion models vision-language-action embodied ai joint denoising multimodal unification

统一扩散VLA：通过联合离散去噪扩散过程的视觉-语言-动作模型 / Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

1️⃣ 一句话总结

这篇论文提出了一种新型的视觉-语言-动作模型，通过一个联合的扩散过程同步生成未来图像和预测机器人动作，实现了多任务协同优化，在多个基准测试中取得了领先性能且推理速度更快。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01706

arXiv 提交日期: 2025-11-03

llm natural language processing model evaluation knowledge interaction subspace disentanglement natural language explanations parametric knowledge context knowledge

基于秩-2子空间解缠的多步骤知识交互分析 / Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

1️⃣ 一句话总结

这篇论文提出了一种新的秩-2子空间解缠方法，首次实现了对大语言模型生成多步解释时内部参数知识与外部上下文知识交互的系统分析，发现幻觉解释偏向参数知识，而忠实解释则平衡两种知识。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01678

arXiv 提交日期: 2025-11-03

computer vision model training model evaluation image relighting video relighting physics-plausible feedback flow matching benchmark evaluation

UniLumos：基于物理可信反馈的快速统一图像与视频重光照方法 / UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

1️⃣ 一句话总结

本研究提出了一种名为UniLumos的统一图像与视频重光照框架，它通过引入基于RGB空间的几何反馈机制来提升光照效果的物理真实性，并在保持高质量输出的同时实现了20倍的加速。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01618

arXiv 提交日期: 2025-11-03

multi-modal model training model evaluation spatial reasoning multimodal llms viewpoint learning 3d reasoning fine-tuning

Actial：激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

1️⃣ 一句话总结

本研究通过构建大规模数据集和两阶段微调方法，有效激活了多模态大语言模型对三维空间关系的理解能力，显著提升了其在跨视角一致性等复杂空间推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01617

arXiv 提交日期: 2025-11-03

multi-modal natural language processing computer vision video retrieval rank fusion zero-shot reasoning vision-language models reranking

上下文投票：将视觉语言模型转化为零样本排序融合器 / Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers

1️⃣ 一句话总结

这项研究提出了一种无需训练的通用框架，通过将检索结果的内容和元数据整合到视觉语言模型的提示中，使其能够像人类一样进行推理，从而在零样本条件下显著提升跨模态视频检索的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01502

arXiv 提交日期: 2025-11-03

computer vision model training depth estimation ego-motion unsupervised learning geometric constraints optical flow

区分对待运动组件推动深度与自运动联合学习演进 / Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

1️⃣ 一句话总结

这项研究提出了一种新方法，通过分别处理相机运动中的不同分量并利用几何约束，显著提升了无监督深度估计和自运动学习的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01450

arXiv 提交日期: 2025-11-03

video generation model training aigc preference optimization training stability memory optimization text-to-video image-to-video

Reg-DPO：利用GT-Pair和SFT正则化直接偏好优化以提升视频生成质量 / Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

1️⃣ 一句话总结

本文提出了一种无需人工标注、能自动构建高质量训练数据并提升训练稳定性的视频生成优化方法，通过结合真实视频与生成视频构建对比样本并引入正则化技术，显著提高了视频生成的质量和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.01846

1️⃣ 一句话总结

arXiv ID: 2511.01833

1️⃣ 一句话总结

arXiv ID: 2511.01775

1️⃣ 一句话总结

arXiv ID: 2511.01718

1️⃣ 一句话总结

arXiv ID: 2511.01706

1️⃣ 一句话总结

arXiv ID: 2511.01678

1️⃣ 一句话总结

arXiv ID: 2511.01618

1️⃣ 一句话总结

arXiv ID: 2511.01617

1️⃣ 一句话总结

arXiv ID: 2511.01502

1️⃣ 一句话总结

arXiv ID: 2511.01450

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.01846 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01617 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01502 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01450 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.01846

arXiv ID: 2511.01833

arXiv ID: 2511.01775

arXiv ID: 2511.01718

arXiv ID: 2511.01706

arXiv ID: 2511.01678

arXiv ID: 2511.01618

arXiv ID: 2511.01617

arXiv ID: 2511.01502

arXiv ID: 2511.01450