arXiv最新AI论文速览速学

🔍

标签: #mllm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering 05-25

arXiv ID: 2605.20772

arXiv 提交日期: 2026-05-20

medical multi-modal model evaluation hallucination detection visual question answering mllm semantic entropy token masking

基于视觉干预的医学视觉问答幻觉检测方法 / VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering

1️⃣ 一句话总结

针对医学多模态大模型在视觉问答中可能生成缺乏视觉证据的幻觉回答的问题，本文提出了一种名为VIHD的新方法，通过精准定位并遮蔽关键视觉区域来校准模型的语义不确定性，从而更可靠地检测出文本合理但视觉无据的幻觉结果，并在多个医学数据集上验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14916

arXiv 提交日期: 2026-03-16

multi-modal model evaluation model training image editing human preference reward model mllm reinforcement learning

EditHF-1M：一个百万规模、包含丰富人类偏好反馈的图像编辑数据集 / EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing

1️⃣ 一句话总结

这篇论文创建了一个包含百万图像和大量人类偏好评分的大规模数据集EditHF-1M，并基于此训练了一个能评估图像编辑质量的AI模型，该模型不仅能准确判断编辑效果，还能作为奖励信号来帮助其他图像编辑AI模型通过强化学习进行自我优化和提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21426

arXiv 提交日期: 2026-01-29

multi-modal model training natural language processing multimodal fine-tuning synthetic captions image classification contrastive loss mllm

基于合成描述的多模态微调 / MultiModal Fine-tuning with Synthetic Captions

1️⃣ 一句话总结

这篇论文提出了一种新方法，利用多模态大语言模型为图像生成高质量的合成描述，将原本只有图像的单模态数据集转化为图文并茂的多模态数据集，从而在模型微调阶段充分利用了预训练阶段学到的多模态知识，显著提升了图像分类，尤其是小样本学习场景下的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20618

arXiv 提交日期: 2026-01-28

natural language processing multi-modal llm sarcasm detection multimodal fusion semantic discrepancy mllm image-text analysis

GDCNet：用于多模态讽刺检测的生成式差异比较网络 / GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

1️⃣ 一句话总结

这篇论文提出了一种名为GDCNet的新方法，它通过利用多模态大模型生成的客观图像描述作为稳定参照，来精确比较图像与文本之间的语义和情感差异，从而更准确、更鲁棒地检测出图文内容中的讽刺意味。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02358

arXiv 提交日期: 2025-11-04

multi-modal llm model training query augmentation multimodal embedding adaptive learning latency optimization mllm

通过自适应查询增强让多模态嵌入器学习何时增强查询 / Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

1️⃣ 一句话总结

这篇论文提出了一种名为M-Solomon的多模态嵌入器，它能够智能地判断何时需要对查询进行信息补充，从而在提升检索效果的同时显著减少处理延迟，避免了以往方法对所有查询都进行增强导致的效率问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10637

arXiv 提交日期: 2025-10-12

robotics multi-modal model training sim-to-real gaussian splatting robotic manipulation mllm zero-shot transfer

基于高斯泼溅的真实世界零样本机器人操作学习高保真模拟数据生成 / High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

1️⃣ 一句话总结

这篇论文提出了一种名为RoboSimGS的新方法，通过结合3D高斯泼溅和多模态大语言模型，将真实世界图像自动转换为高保真、可物理交互的模拟环境，从而让在模拟环境中训练的机器人策略能够直接成功应用于真实世界的各种操作任务，有效解决了模拟与现实之间的性能差距问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09595

arXiv 提交日期: 2025-09-11

multi-modal video generation aigc avatar animation multimodal instructions video synthesis digital humans mllm

Kling-Avatar：基于多模态指令的级联长时长虚拟人动画合成 / Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为Kling-Avatar的创新系统，它通过理解多模态指令（如语音和视觉信号）来生成语义连贯、表情生动且高保真的长时长虚拟人视频，显著提升了数字人在直播和视频博客等应用中的表现力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.20772

1️⃣ 一句话总结

arXiv ID: 2603.14916

1️⃣ 一句话总结

arXiv ID: 2601.21426

1️⃣ 一句话总结

arXiv ID: 2601.20618

1️⃣ 一句话总结

arXiv ID: 2511.02358

1️⃣ 一句话总结

arXiv ID: 2510.10637

1️⃣ 一句话总结

arXiv ID: 2509.09595

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.20772 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14916 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21426 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02358 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10637 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09595 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.20772

arXiv ID: 2603.14916

arXiv ID: 2601.21426

arXiv ID: 2601.20618

arXiv ID: 2511.02358

arXiv ID: 2510.10637

arXiv ID: 2509.09595