arXiv最新AI论文速览速学

🔍

标签: #multimodal reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: WildFireVQA: A Large-Scale Radiometric Thermal VQA Benchmark for Aerial Wildfire Monitoring 04-23

arXiv ID: 2512.24165

arXiv 提交日期: 2025-12-30

multi-modal model training computer vision multimodal reasoning diffusion models vision-centric tasks generative reasoning image-to-image

DiffThinker：迈向基于扩散模型的生成式多模态推理 / DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为DiffThinker的新方法，它将多模态推理任务直接当作生成图像的过程来处理，相比现有主流模型，在需要视觉逻辑和空间精度的复杂任务上表现更出色，效率更高且可控性更强。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24297

arXiv 提交日期: 2025-12-30

llm agents multi-modal visual reasoning multimodal reasoning reinforcement learning mathematical reasoning structural reasoning

图形化思考：通过主动视觉思维提升推理前沿 / Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

1️⃣ 一句话总结

这篇论文提出了一种名为FIGR的新方法，它通过让AI在解决复杂问题时主动绘制图形来辅助思考，从而显著提升了在数学推理等需要理解空间和结构关系任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22334

arXiv 提交日期: 2025-12-26

benchmark model evaluation multi-modal scientific intelligence evaluation toolkit multimodal reasoning science domains ai4science

SciEvalKit：一个用于科学通用智能的开源评估工具包 / SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

1️⃣ 一句话总结

这篇论文介绍了一个名为SciEvalKit的开源工具包，它专门用来评估AI模型在多个科学领域的综合能力，比如科学推理、代码生成和知识理解，旨在为科学AI的发展提供一个标准化且可扩展的评测平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22120

arXiv 提交日期: 2025-12-26

multi-modal model training machine learning vision-language models perceptual shaping multimodal reasoning training objective visual evidence

看得更少，看得更准：用于多模态推理的双向感知塑造 / See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为双向感知塑造的新方法，通过训练模型在回答问题时更精准地关注图像中的关键区域并避免仅依赖文本的捷径，从而显著提升了视觉语言模型在多模态推理任务上的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16978

arXiv 提交日期: 2025-12-18

benchmark multi-modal agents video understanding multimodal reasoning agentic tool use evaluation framework long-form video

长视频全模态推理与工具使用的基准与智能体框架 / A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

1️⃣ 一句话总结

这篇论文提出了一个名为LongShOTBench的诊断性基准测试和一个名为LongShOTAgent的智能体系统，用于全面评估和提升AI模型在理解长视频时整合视觉、语音、音频并进行复杂推理与工具使用的能力，揭示了当前先进模型在此任务上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16969

arXiv 提交日期: 2025-12-18

llm benchmark model evaluation scientific general intelligence workflow evaluation benchmarking test-time reinforcement learning multimodal reasoning

利用科学家对齐的工作流程探究大语言模型的科学通用智能 / Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

1️⃣ 一句话总结

这篇论文提出了一个基于‘实践探究模型’的科学通用智能定义，并通过一个包含千余个跨学科样本的基准测试，系统评估了大语言模型在模拟科学家完整工作流程（如深度研究、实验设计等）中的能力，揭示了其在可行性、细节和推理方面的显著不足，并引入了一种无需参考答案即可提升假设新颖性的推理时强化学习方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16776

arXiv 提交日期: 2025-12-18

video generation multi-modal aigc text-to-video multimodal reasoning video editing world simulator generative framework

Kling-Omni技术报告 / Kling-Omni Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为Kling-Omni的通用视频生成框架，它能够根据文字、图片或视频片段等多种形式的指令，直接生成高质量、高智能的视频内容，并将视频生成、编辑和推理任务统一起来，是迈向能够感知和模拟动态复杂世界的多模态系统的重要一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16918

arXiv 提交日期: 2025-12-18

multi-modal llm model training adaptive tool-use multimodal reasoning reinforcement learning vision-language model efficient inference

AdaTooler-V：面向图像与视频的自适应工具使用模型 / AdaTooler-V: Adaptive Tool-Use for Images and Videos

1️⃣ 一句话总结

这篇论文提出了一个名为AdaTooler-V的多模态大模型，它通过智能判断何时需要调用视觉工具来解决问题，从而在减少不必要计算开销的同时，显著提升了在图像和视频任务上的推理准确率，其性能甚至超过了GPT-4o等顶尖商业模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13303

arXiv 提交日期: 2025-12-15

multi-modal model training model evaluation table visualization infographic generation multimodal reasoning self-correcting pipeline benchmark

ShowTable：通过协同反思与精炼解锁创意表格可视化 / ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

1️⃣ 一句话总结

这篇论文提出了一个名为ShowTable的新方法，它通过让大语言模型和扩散模型协同工作，像‘设计师’和‘画师’一样反复沟通与修正，从而自动将枯燥的表格数据转换成既准确又美观的信息图表。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.12623

arXiv 提交日期: 2025-12-14

multi-modal llm model evaluation multimodal reasoning latent space dynamic interleaving chain-of-thought inference efficiency

思维内推理：潜在空间中的动态多模态交错 / Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

1️⃣ 一句话总结

这篇论文提出了一种名为DMLR的新方法，它模仿人类思维中感知与推理动态交织的过程，在模型内部潜在空间中进行高效的视觉-文本信息融合，从而显著提升了多模态模型的推理能力和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.24165

1️⃣ 一句话总结

arXiv ID: 2512.24297

1️⃣ 一句话总结

arXiv ID: 2512.22334

1️⃣ 一句话总结

arXiv ID: 2512.22120

1️⃣ 一句话总结

arXiv ID: 2512.16978

1️⃣ 一句话总结

arXiv ID: 2512.16969

1️⃣ 一句话总结

arXiv ID: 2512.16776

1️⃣ 一句话总结

arXiv ID: 2512.16918

1️⃣ 一句话总结

arXiv ID: 2512.13303

1️⃣ 一句话总结

arXiv ID: 2512.12623

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.24165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24297 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22334 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16969 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16918 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13303 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.12623 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.24165

arXiv ID: 2512.24297

arXiv ID: 2512.22334

arXiv ID: 2512.22120

arXiv ID: 2512.16978

arXiv ID: 2512.16969

arXiv ID: 2512.16776

arXiv ID: 2512.16918

arXiv ID: 2512.13303

arXiv ID: 2512.12623