arXiv最新AI论文速览速学

🔍

标签: #large multimodal models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: DualGeo: A Dual-View Framework for Worldwide Image Geo-localization 04-29

arXiv ID: 2604.25533

arXiv 提交日期: 2026-04-28

computer vision multi-modal geo-localization cross-attention contrastive learning gps alignment large multimodal models

DualGeo：用于全球图像地理定位的双视角框架 / DualGeo: A Dual-View Framework for Worldwide Image Geo-localization

1️⃣ 一句话总结

本文提出DualGeo框架，通过融合图像与语义分割特征的对比学习建立全球检索库，并利用地理聚类和大语言模型对候选地点重新排序，从而在多种尺度上显著提升全球图像地理定位的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21915

arXiv 提交日期: 2026-01-29

multi-modal model evaluation benchmark video aesthetics large multimodal models quality assessment evaluation benchmark aesthetic perception

VideoAesBench：评测大型多模态模型的视频美学感知能力 / VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一个名为VideoAesBench的综合评测基准，用于系统评估当前各类大型多模态模型在理解视频美学质量方面的能力，发现它们目前仅具备基础且不完善的感知水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.10359

arXiv 提交日期: 2025-12-11

multi-modal video agents video question answering spatiotemporal reasoning tool-augmented agents large multimodal models benchmark evaluation

STAR：一种用于视频问答的时空推理框架 / Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

1️⃣ 一句话总结

本文提出了一种名为STAR的免训练、用户友好的智能体推理框架，通过为大型多模态模型配备一个全面的视频工具包，并采用时空工具交替调用的策略，来渐进式定位视频中的关键三维区域，从而显著提升了复杂视频问答任务的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04082

arXiv 提交日期: 2025-12-03

multi-modal aigc systems graphic design automation layout reasoning controllable editing large multimodal models reinforcement learning

PosterCopilot：面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

1️⃣ 一句话总结

这篇论文提出了一个名为PosterCopilot的智能设计框架，它通过创新的训练方法让大模型学会精确的布局规划和审美判断，并支持对设计元素进行分层、迭代的精细化编辑，从而能自动生成几何准确且美观的专业海报。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04000

arXiv 提交日期: 2025-12-03

multi-modal model evaluation computer vision video understanding frame selection query typology large multimodal models long-form video

先区分，再定位：根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为DIG的智能方法，它先判断用户对长视频的提问是全局性的还是局部性的，然后自动选择最高效的视频帧提取策略，从而在保证理解准确性的同时，大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.25867

arXiv 提交日期: 2025-10-29

medical multi-modal model training visual question answering medical imaging data synthesis large multimodal models benchmark

MedVLSynther：基于生成器-验证器大语言模型从医学文档合成高质量视觉问答数据 / MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

1️⃣ 一句话总结

这篇论文提出了一种名为MedVLSynther的自动化框架，它能够从公开的生物医学文献中生成高质量的视觉问答训练数据，并通过验证机制确保问题的准确性和临床相关性，从而显著提升了医学AI模型的问答性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25533

1️⃣ 一句话总结

arXiv ID: 2601.21915

1️⃣ 一句话总结

arXiv ID: 2512.10359

1️⃣ 一句话总结

arXiv ID: 2512.04082

1️⃣ 一句话总结

arXiv ID: 2512.04000

1️⃣ 一句话总结

arXiv ID: 2510.25867

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21915 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.10359 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04082 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04000 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.25867 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25533

arXiv ID: 2601.21915

arXiv ID: 2512.10359

arXiv ID: 2512.04082

arXiv ID: 2512.04000

arXiv ID: 2510.25867