arXiv最新AI论文速览速学

🔍

标签: #cross-modal reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory 03-04

arXiv ID: 2603.02663

arXiv 提交日期: 2026-03-03

multi-modal model evaluation benchmark item response theory cross-modal reasoning evaluation framework vision-language models benchmark quality

利用多模态项目反应理论评估跨模态推理能力与问题特性 / Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

1️⃣ 一句话总结

本文提出了一种名为M3IRT的多模态项目反应理论框架，它能有效区分并筛选出真正需要跨模态推理的高质量测试问题，从而以更低的评估成本更可靠地衡量多模态大模型的综合理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22897

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark omni-modal agents tool usage cross-modal reasoning foundation agent evaluation benchmark

OmniGAIA：迈向原生全模态AI助手 / OmniGAIA: Towards Native Omni-Modal AI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OmniGAIA的全模态AI助手评估基准，并开发了一个名为OmniAtlas的原生全模态基础智能体，旨在让AI能像人类一样综合处理视觉、听觉和语言信息，并进行复杂推理和工具调用，以更好地解决现实世界中的复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14245

arXiv 提交日期: 2026-01-20

multi-modal agents model evaluation composed image retrieval cross-modal reasoning multi-agent framework training-free benchmark

XR：用于组合图像检索的跨模态智能体框架 / XR: Cross-Modal Agents for Composed Image Retrieval

1️⃣ 一句话总结

这篇论文提出了一个名为XR的无需训练的多智能体框架，通过让不同类型的智能体协同工作，分别负责想象目标图像、进行初步匹配和事实核查，从而更准确地根据一张参考图片和一段修改文字来找到目标图片，大幅提升了组合图像检索任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01163

arXiv 提交日期: 2025-11-03

multi-modal model evaluation benchmark cross-modal reasoning multimodal generation evaluation benchmark visual reasoning text-to-image

ROVER：面向全模态生成的互惠跨模态推理基准评测 / ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ROVER的基准测试，用于评估统一多模态模型在图像和文本之间进行双向推理的能力，发现跨模态推理对生成质量至关重要，并揭示了模型在物理和符号推理上的表现差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14979

arXiv 提交日期: 2025-10-16

natural language processing computer vision multi-modal vision-language models representation alignment cross-modal reasoning model architecture unified encoding

从像素到词汇——构建大规模原生视觉语言基础模型 / From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

1️⃣ 一句话总结

这篇论文提出了构建原生视觉语言模型（VLM）的核心原则，并发布了名为NEO的新型模型系列，通过统一架构有效融合视觉与语言能力，在少量数据下实现与顶尖模块化模型相媲美的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02663

1️⃣ 一句话总结

arXiv ID: 2602.22897

1️⃣ 一句话总结

arXiv ID: 2601.14245

1️⃣ 一句话总结

arXiv ID: 2511.01163

1️⃣ 一句话总结

arXiv ID: 2510.14979

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22897 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14245 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14979 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02663

arXiv ID: 2602.22897

arXiv ID: 2601.14245

arXiv ID: 2511.01163

arXiv ID: 2510.14979