arXiv最新AI论文速览速学

🔍

标签: #multimodal llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Retrieval-Augmented Multimodal Model for Fake News Detection 04-25

arXiv ID: 2603.27690

arXiv 提交日期: 2026-03-29

multi-modal aigc model training visual storytelling multimodal llm story customization shot-type control benchmark

基于统一多模态大语言模型的定制化视觉故事生成 / Customized Visual Storytelling with Unified Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为VstoryGen的多模态框架，它能够根据文字描述、角色形象和背景参考图，并利用镜头类型控制，来生成连贯且符合电影语法的定制化视觉故事，在角色场景一致性、图文对齐和镜头多样性上优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23953

arXiv 提交日期: 2026-03-25

medical multi-modal model training ophthalmology multimodal llm medical ai disease classification clinical reasoning

VOLMO：面向眼科的通用与开源大模型 / VOLMO: Versatile and Open Large Models for Ophthalmology

1️⃣ 一句话总结

本研究提出了一个名为VOLMO的开放框架，专门用于构建眼科领域的多模态大模型，该模型通过分阶段训练，在多种眼科疾病诊断和临床推理任务上表现优于现有通用及医疗大模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23885

arXiv 提交日期: 2026-03-25

multi-modal model training data document parsing scene synthesis benchmark multimodal llm end-to-end training

迈向真实世界文档解析：通过真实场景合成与文档感知训练 / Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training

1️⃣ 一句话总结

这篇论文提出了一种结合大规模合成数据和针对性训练策略的新方法，有效解决了现有模型在解析真实世界复杂文档时出现的结构混乱和内容错误问题，显著提升了文档解析的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24037

arXiv 提交日期: 2026-03-25

multi-modal model evaluation computer vision aesthetic assessment advertising images multimodal llm benchmark instruction tuning

A^3：面向广告美学评估的框架 / A^3: Towards Advertising Aesthetic Assessment

1️⃣ 一句话总结

这篇论文提出了一个名为A^3的综合性框架，通过理论驱动的评估范式、大规模数据集、多模态大语言模型和基准测试，旨在客观、可解释地自动评估广告图像的美学质量，以解决当前依赖主观判断的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.20020

arXiv 提交日期: 2026-03-20

multi-modal model training llm feature aggregation gradient propagation ocr multimodal llm training stability

解耦跳跃连接与R-Probe：为多模态大语言模型OCR任务解耦特征聚合与梯度传播 / Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR

1️⃣ 一句话总结

这篇论文发现并解决了多模态大模型在OCR任务中的一个关键训练问题：传统特征融合方法中的梯度干扰会破坏底层视觉细节，为此提出了一种在训练时阻断跳跃连接梯度传播的简单有效方法，并设计了一个诊断工具来验证模型是否保留了精细视觉信息，从而显著提升了OCR及相关多模态任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14827

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training facial action estimation semantic distillation interpretable ai blendshape prediction multimodal llm

SemanticFace：通过可解释空间中的语义蒸馏实现语义面部动作估计 / SemanticFace: Semantic Facial Action Estimation via Semantic Distillation in Interpretable Space

1️⃣ 一句话总结

这篇论文提出了一个名为SemanticFace的新框架，它通过一个两阶段的语义蒸馏方法，将图像中的人脸表情转化为既精确又易于理解的肌肉运动参数，从而更好地控制数字虚拟形象或进行人机交互。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14951

arXiv 提交日期: 2026-03-16

multi-modal model evaluation natural language processing point cloud quality assessment multimodal llm instruction tuning geometry-texture decoupling low-rank adaptation

GT-PCQA：一种基于多模态大语言模型的、几何与纹理解耦的点云质量评估方法 / GT-PCQA: Geometry-Texture Decoupled Point Cloud Quality Assessment with MLLM

1️⃣ 一句话总结

本文提出了一种名为GT-PCQA的新方法，它通过结合2D-3D联合训练和几何纹理解耦策略，成功利用多模态大语言模型来准确评估点云质量，解决了现有方法因数据不足和模型偏重纹理而忽略几何结构缺陷的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14935

arXiv 提交日期: 2026-03-16

multi-modal model evaluation natural language processing video event prediction temporal modeling logical reasoning chain of events multimodal llm

Video-CoE：通过事件链强化视频事件预测 / Video-CoE: Reinforcing Video Event Prediction via Chain of Events

1️⃣ 一句话总结

这篇论文针对现有多模态大模型在预测视频未来事件时存在的逻辑推理和视觉信息利用不足的问题，提出了一种‘事件链’的新方法，通过构建时序事件链来引导模型关注视频内容与未来事件之间的逻辑联系，从而显著提升了视频事件预测的准确率，并在公开基准测试中取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08927

arXiv 提交日期: 2026-03-09

multi-modal computer vision benchmark micro-expression visual question answering multimodal llm video analysis temporal reasoning

MEGC2026：关于视觉问答的微表情大挑战 / MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

1️⃣ 一句话总结

这篇论文介绍了2026年微表情大挑战赛，它利用新兴的多模态大模型技术，设置了短时和长时微表情视频问答两项任务，旨在推动微表情自动分析领域的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04868

arXiv 提交日期: 2026-03-05

multi-modal agents model training autonomous driving trajectory generation keypoint prediction multimodal llm reinforcement fine-tuning

K-Gen：一种用于可解释的关键点引导轨迹生成的多模态语言条件方法 / K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation

1️⃣ 一句话总结

这篇论文提出了一种名为K-Gen的新方法，它通过结合图像地图和文字描述来理解驾驶场景，并先生成代表车辆意图的关键点，再将其细化为完整轨迹，从而在自动驾驶模拟中生成更真实、可解释的车辆行驶路线。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.27690

1️⃣ 一句话总结

arXiv ID: 2603.23953

1️⃣ 一句话总结

arXiv ID: 2603.23885

1️⃣ 一句话总结

arXiv ID: 2603.24037

1️⃣ 一句话总结

arXiv ID: 2603.20020

1️⃣ 一句话总结

arXiv ID: 2603.14827

1️⃣ 一句话总结

arXiv ID: 2603.14951

1️⃣ 一句话总结

arXiv ID: 2603.14935

1️⃣ 一句话总结

arXiv ID: 2603.08927

1️⃣ 一句话总结

arXiv ID: 2603.04868

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.27690 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23885 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24037 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.20020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14951 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14935 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08927 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04868 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.27690

arXiv ID: 2603.23953

arXiv ID: 2603.23885

arXiv ID: 2603.24037

arXiv ID: 2603.20020

arXiv ID: 2603.14827

arXiv ID: 2603.14951

arXiv ID: 2603.14935

arXiv ID: 2603.08927

arXiv ID: 2603.04868