arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: VideoLatent: Video-Language Learning via Latent Self-Forcing 06-23

arXiv ID: 2606.13572

arXiv 提交日期: 2026-06-11

medical multi-modal multi-agents multilingual medical reasoning low-resource languages dataset question answering

ArogyaSutra：面向印度语言多模态医学推理的多智能体框架 / ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

1️⃣ 一句话总结

本文提出一个名为ArogyaSutra的多智能体框架，结合大规模多语言医学数据集，解决了当前AI在印度农村等低资源环境下无法有效处理患者用本地语言描述的医疗问题（如结合影像）的困境，从而提升多语言医疗推理的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12125

arXiv 提交日期: 2026-06-10

multi-modal video model evaluation long video understanding multimodal large language models input construction focus-context temporal segments

Q-Fold：面向长视频理解的查询感知式焦点-上下文时空折叠方法 / Q-Fold: Query-Aware Focus-Context Spatio-Temporal Folding for Long Video Understanding

1️⃣ 一句话总结

本文提出了一种无需额外训练的输入构建框架Q-Fold，通过根据用户查询将长视频中相关片段保留为高保真帧、不相关片段折叠成保持时间顺序的紧凑布局，从而在有限计算资源下同时保留关键视觉证据和广泛时间覆盖，显著提升了多模态大模型在长视频理解任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12105

arXiv 提交日期: 2026-06-10

robotics multi-modal machine learning vision-language-action temporal decoupling asynchronous processing manipulation cross-attention

DAM-VLA：解耦异步多模态视觉语言动作模型 / DAM-VLA: Decoupled Asynchronous Multimodal Vision Language Action model

1️⃣ 一句话总结

本文提出DAM-VLA模型，通过让触觉、视觉和语言等不同模态按各自传感器频率独立更新并融合，解决了传统同步模型处理速度不匹配的问题，在七项高难度机器人操作任务中将平均成功率从约41%提升至95%以上，并实现了流畅的100赫兹实时控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12047

arXiv 提交日期: 2026-06-10

computer vision multi-modal video zero-shot learning accident understanding video reasoning vision-language model temporal localization

基于元数据感知的多提示推理实现零样本事故理解 / Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding

1️⃣ 一句话总结

本论文提出一种三阶段方法，将监控视频中的事故理解分解为“何时发生”（时间定位）、“什么类型”（语义分类）和“何处发生”（空间定位）三个子任务，通过结合视觉-语言模型和元数据驱动的多角度提示推理，在零样本条件下显著提升了事故检测的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12018

arXiv 提交日期: 2026-06-10

multi-modal llm agents knowledge distillation social intelligence long-tail events test-time adaptation low-rank adaptation

MODF-SIR：一种用于社交智能推理的多智能体全模态蒸馏框架 / MODF-SIR: A Multi-agent Omni-modal Distilled Framework for Social Intelligence Reasoning

1️⃣ 一句话总结

本文提出了一种轻量级多智能体协作框架，通过知识蒸馏和测试时自适应技术，在社交智能推理中高效提取并利用长尾事件信息，仅用30%的训练数据就达到了行业领先水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12106

arXiv 提交日期: 2026-06-10

multi-modal sports llm soccer understanding vqa data synthesis expert system challenge solution

多模态足球理解专家 / MSUE: Multi-Modal Soccer Understanding Expert

1️⃣ 一句话总结

本文提出了一种名为MSUE的多专家问答系统，通过低成本合成多样化的足球比赛问答数据，并让大语言模型动态调配文本、图像和视频专家协同工作，最终在SoccerNet VQA挑战中取得了95%的准确率和第三名的成绩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11805

arXiv 提交日期: 2026-06-10

computer vision multi-modal aigc text-to-3d hand-object interaction multi-view generation mesh optimization discrete representation

TextHOI-3D：基于离散多视图生成与联合网格优化的文本到3D手物交互生成 / TextHOI-3D: Text-to-3D Hand-Object Interaction via Discrete Multi-View Generation and Joint Mesh Optimization

1️⃣ 一句话总结

本文提出一个两阶段框架，先根据文本提示生成手与物体交互的多视角离散图像，再通过联合优化将这些图像重建为高质量、无穿透的3D手物网格模型，显著提升了从文字生成3D手物交互的几何精度和物理合理性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10894

arXiv 提交日期: 2026-06-09

computer vision aigc multi-modal portrait generation composition understanding dataset workshop competition controllable synthesis

第一届PortraitCraft挑战赛：CVPR 2026肖像构图理解与生成研讨会竞赛 / The 1st PortraitCraft Challenge: A CVPR 2026 Workshop Competition on Portrait Composition Understanding and Generation

1️⃣ 一句话总结

本文介绍了CVPR 2026举办的肖像构图理解与生成挑战赛，提出了一个包含两个互补赛道（构图理解和有条件生成）的统一评估框架，并发布了约5万张标注肖像数据集，旨在推动肖像美学分析和可控图像合成的AI研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10468

arXiv 提交日期: 2026-06-09

computer vision multi-modal coastline detection vision-language model remote sensing geometric localization boundary grounding

基于视觉语言模型的海岸线几何定位 / Geometric Coastline Localization using Vision-Language Models

1️⃣ 一句话总结

本文提出了一种新的海岸线提取方法，将传统基于像素分割的任务转变为直接预测几何折线，并利用视觉语言模型（CoastlineVLM-7B）同时识别海岸线是否存在、分类其地貌类型并精准定位，从而在几何精度上显著优于传统分割方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10803

arXiv 提交日期: 2026-06-09

multi-modal evaluation robotics benchmark physical tool use embodied ai perception planning

超越API：探索多模态大语言模型在物理工具使用中的极限 / Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use

1️⃣ 一句话总结

本文提出了首个专门评估多模态大语言模型在现实场景中识别和规划使用物理工具能力的基准测试PhysTool-Bench，结果发现当前最先进的模型在工具感知和功能常识推理上存在严重不足，仅能完成约五分之一的任务，揭示了具身人工智能发展的关键瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13572

1️⃣ 一句话总结

arXiv ID: 2606.12125

1️⃣ 一句话总结

arXiv ID: 2606.12105

1️⃣ 一句话总结

arXiv ID: 2606.12047

1️⃣ 一句话总结

arXiv ID: 2606.12018

1️⃣ 一句话总结

arXiv ID: 2606.12106

1️⃣ 一句话总结

arXiv ID: 2606.11805

1️⃣ 一句话总结

arXiv ID: 2606.10894

1️⃣ 一句话总结

arXiv ID: 2606.10468

1️⃣ 一句话总结

arXiv ID: 2606.10803

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13572 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12105 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12047 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12018 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11805 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10894 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10803 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13572

arXiv ID: 2606.12125

arXiv ID: 2606.12105

arXiv ID: 2606.12047

arXiv ID: 2606.12018

arXiv ID: 2606.12106

arXiv ID: 2606.11805

arXiv ID: 2606.10894

arXiv ID: 2606.10468

arXiv ID: 2606.10803