arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 249 最新: Foundations and Architectures of Artificial Intelligence for Motor Insurance 03-20

arXiv ID: 2602.22932

arXiv 提交日期: 2026-02-26

multi-modal model training model evaluation video understanding key-frame sampling reinforcement learning multimodal llm long-form video

MSJoE：联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为MSJoE的新方法，它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化，智能地从长视频中筛选出少量最相关的画面进行理解，从而在显著提升回答准确率的同时，实现了对长视频的高效分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22862

arXiv 提交日期: 2026-02-26

robotics model training multi-modal grasping policy latent diffusion imitation learning robotic manipulation self-supervised learning

GraspLDP：通过潜在扩散实现可泛化的抓取策略 / GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

1️⃣ 一句话总结

这篇论文提出了一种结合抓取先验知识的潜在扩散策略，通过引导机器人动作生成和融入视觉重建目标，显著提升了模仿学习抓取策略的精确度和对不同物体、不同场景的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22624

arXiv 提交日期: 2026-02-26

multi-modal computer vision model training instruction-based image editing multi-modal chain-of-thought diffusion models region reasoning hint-guided generation

基于指令的图像编辑：规划、推理与生成 / Instruction-based Image Editing with Planning, Reasoning, and Generation

1️⃣ 一句话总结

这篇论文提出了一种新的多模态智能方法，通过‘思维链’式的规划、区域推理和生成三步走，让AI能更准确地理解复杂指令并编辑真实世界图像，效果优于以往方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23166

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark multimodal agents tool use evaluation benchmark long-horizon tasks visual reasoning

AgentVista：在超挑战性真实视觉场景中评估多模态智能体 / AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为AgentVista的新基准测试，用于评估多模态智能体在包含丰富视觉细节和需要长时间、多步骤工具协作的真实复杂任务中的表现，结果发现当前最先进的模型在此类任务上仍存在巨大能力差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22917

arXiv 提交日期: 2026-02-26

multi-modal model training machine learning domain generalization semi-supervised learning multimodal fusion pseudo-labeling robust representation

迈向少标签的多模态领域泛化 / Towards Multimodal Domain Generalization with Few Labels

1️⃣ 一句话总结

这篇论文提出了一个名为‘半监督多模态领域泛化’的新问题及其解决方案，旨在利用少量标注数据和大量未标注数据，训练出能够适应新领域且对模态缺失鲁棒的多模态模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21533

arXiv 提交日期: 2026-02-25

llm agents multi-modal multi-agent systems scientific discovery materials design catalyst discovery reasoning

基于多智能体大语言模型框架的推理驱动单原子催化剂设计 / Reasoning-Driven Design of Single Atom Catalysts via a Multi-Agent Large Language Model Framework

1️⃣ 一句话总结

这篇论文提出了一个名为MAESTRO的多智能体大语言模型框架，通过让多个扮演不同角色的AI智能体协作推理和优化，成功发现了打破传统反应中间体比例关系的高性能单原子催化剂，为材料发现提供了新策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21854

arXiv 提交日期: 2026-02-25

multi-modal llm benchmark few-shot learning in-context learning chain-of-thought multimodal evaluation model analysis

FewMMBench：一个用于多模态小样本学习的基准测试 / FewMMBench: A Benchmark for Multimodal Few-Shot Learning

1️⃣ 一句话总结

这篇论文提出了一个名为FewMMBench的综合性基准测试，专门用于评估多模态大语言模型在只提供少量示例（小样本）情况下的学习能力，并通过测试发现，当前模型在增加示例或使用复杂推理提示后性能提升有限，甚至可能下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21950

arXiv 提交日期: 2026-02-25

medical multi-modal benchmark multimodal llms clinical diagnosis medical benchmark evidence synthesis model evaluation

MEDSYN：针对多模态大语言模型的复杂临床病例多证据合成基准测试 / MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为MEDSYN的新基准测试，用于评估多模态大语言模型在整合多种复杂临床证据（如图像和文本）以进行准确诊断方面的能力，发现当前模型在综合不同类型证据方面存在明显缺陷，并提出了量化这种缺陷的方法以指导模型改进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21835

arXiv 提交日期: 2026-02-25

benchmark multi-modal model evaluation video foundation models unified evaluation video generation video understanding agentic evaluation

UniVBench：面向视频基础模型的统一评估 / UniVBench: Towards Unified Evaluation for Video Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为UniVBench的统一评估基准，它首次将视频理解、生成、编辑和重建四大核心能力整合到一个框架中进行综合测评，并引入了一个标准化的自动评估系统，旨在更全面、公平地衡量新一代视频基础模型的真实水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22010

arXiv 提交日期: 2026-02-25

robotics multi-modal model training world modeling vision-language-action action generation future prediction human manipulation

世界引导：在条件空间中为动作生成进行世界建模 / World Guidance: World Modeling in Condition Space for Action Generation

1️⃣ 一句话总结

这篇论文提出了一个名为‘世界引导’的新框架，它通过将预测的未来场景压缩成简洁的‘条件’，来更有效地指导AI模型生成精确的动作，从而在机器人和智能体控制任务上取得了比直接预测未来更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.22932

1️⃣ 一句话总结

arXiv ID: 2602.22862

1️⃣ 一句话总结

arXiv ID: 2602.22624

1️⃣ 一句话总结

arXiv ID: 2602.23166

1️⃣ 一句话总结

arXiv ID: 2602.22917

1️⃣ 一句话总结

arXiv ID: 2602.21533

1️⃣ 一句话总结

arXiv ID: 2602.21854

1️⃣ 一句话总结

arXiv ID: 2602.21950

1️⃣ 一句话总结

arXiv ID: 2602.21835

1️⃣ 一句话总结

arXiv ID: 2602.22010

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.22932 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22862 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22624 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23166 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21854 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21950 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21835 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22010 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.22932

arXiv ID: 2602.22862

arXiv ID: 2602.22624

arXiv ID: 2602.23166

arXiv ID: 2602.22917

arXiv ID: 2602.21533

arXiv ID: 2602.21854

arXiv ID: 2602.21950

arXiv ID: 2602.21835

arXiv ID: 2602.22010