arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2603.15557

arXiv 提交日期: 2026-03-16

multi-modal model evaluation natural language processing hallucination detection vision-language models cognitive trajectory information-theoretic probes diagnostic framework

谎言的剖析：一个用于追踪视觉语言模型幻觉的多阶段诊断框架 / Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，将视觉语言模型产生幻觉（即生成看似合理但事实错误的描述）的过程，看作是其内部“计算认知”的动态病理轨迹，并通过一个可解释的“认知状态空间”来检测和归因这些错误，从而让模型的推理过程更透明、可诊断。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14819

arXiv 提交日期: 2026-03-16

model training computer vision multi-modal model unlearning vision transformers diffusion models attention editing safety

RAZOR：面向视觉Transformer与扩散模型定向遗忘的比率感知层编辑方法 / RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为RAZOR的轻量级通用方法，通过智能识别并精准编辑Transformer模型中对特定信息最关键的层和注意力头，从而高效、安全地移除模型中的敏感或不良内容，同时保持其整体性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14845

arXiv 提交日期: 2026-03-16

multi-modal systems model evaluation solar irradiance forecasting weather foundation model satellite imagery multimodal fusion energy grid integration

融合天气基础模型与卫星数据实现精细化太阳辐照度预报 / IntegratingWeather Foundation Model and Satellite to Enable Fine-Grained Solar Irradiance Forecasting

1️⃣ 一句话总结

该论文提出了一个名为Baguan-solar的两阶段多模态框架，通过融合全球天气基础模型的预报和高分辨率卫星图像，实现了公里级、未来24小时的高精度太阳辐照度预测，有效解决了现有方法在精细尺度或长期预报上的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15563

arXiv 提交日期: 2026-03-16

agents benchmark multi-modal multi-agent systems long-horizon planning partial observability game-theoretic reasoning rpg environment

PokeAgent挑战：大规模竞争性与长上下文学习 / The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

1️⃣ 一句话总结

这篇论文提出了一个基于宝可梦游戏的大规模决策研究基准，包含对战和速通两个赛道，旨在通过竞争性、部分可观测和长程规划等复杂任务，来评估和推动强化学习与大语言模型的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15600

arXiv 提交日期: 2026-03-16

robotics reinforcement learning multi-modal process reasoning video mllm robotic manipulation reinforcement learning fine-tuning benchmark evaluation

从被动观察者到主动批评家：强化学习激发机器人操作的过程推理 / From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为PRIMO R1的新框架，它利用强化学习训练小型视频模型，使其从单纯识别动作的‘观察者’转变为能主动评估任务进展的‘批评家’，从而在复杂的机器人操作任务中实现了更准确的过程监控和状态评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14701

arXiv 提交日期: 2026-03-16

computer vision multi-modal benchmark depth completion adverse weather lidar-camera fusion robust perception depth denoising

AURORA-KITTI：面向真实世界的全天候深度补全与去噪 / AURORA-KITTI: Any-Weather Depth Completion and Denoising in the Wild

1️⃣ 一句话总结

这篇论文提出了首个大规模、多天气的深度补全基准数据集AURORA-KITTI，并设计了一个高效的基线模型DDCD，通过联合进行深度补全与去噪，显著提升了自动驾驶等场景在恶劣天气下的3D感知鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14719

arXiv 提交日期: 2026-03-16

medical multi-modal machine learning clinical prediction multimodal deep learning intensive care unit time-series analysis clinical notes

基于多模态深度学习的ICU患者病情恶化早期预测：整合时序电子健康记录数据与临床文本 / Multimodal Deep Learning for Early Prediction of Patient Deterioration in the ICU: Integrating Time-Series EHR Data with Clinical Notes

1️⃣ 一句话总结

这篇论文提出了一种结合患者生命体征数据和医生临床记录的多模态深度学习模型，能够更准确地提前24小时预测重症监护室（ICU）患者的病情恶化风险，相比仅使用传统数据的方法，预测性能有显著提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12254

arXiv 提交日期: 2026-03-12

multi-modal model training model evaluation video understanding token reduction autoregressive selection reinforcement learning benchmark

先注视再关注：通过自回归凝视实现高效且可扩展的视频理解 / Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

1️⃣ 一句话总结

这篇论文提出了一个名为AutoGaze的轻量级模块，它通过自回归学习的方式，智能地筛选出视频中最关键的画面片段，从而让大模型在处理长、高清视频时能大幅减少计算量、提升速度，同时保持甚至超越原有的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11975

arXiv 提交日期: 2026-03-12

multi-modal agents benchmark vision-language models safety evaluation embodied agents household robotics unsafe action detection

HomeSafe-Bench：评估视觉语言模型在家庭场景具身智能体不安全动作检测中的表现 / HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

1️⃣ 一句话总结

这篇论文提出了一个专门用于测试AI家庭机器人安全性的新标准（HomeSafe-Bench），并设计了一个名为HD-Guard的双层智能监控系统，它通过‘快脑’快速筛查和‘慢脑’深度分析相结合的方式，在保证实时响应的同时，更准确地识别家庭环境中的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12266

arXiv 提交日期: 2026-03-12

multi-modal benchmark model evaluation multimodal reasoning compositional reasoning visual workflows verifiable evaluation mllm benchmarking

MM-CondChain：一个用于视觉基础深度组合推理的、可通过程序验证的基准 / MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MM-CondChain的新基准测试，专门用来评估多模态大语言模型在理解复杂视觉场景后，进行多步骤、有条件分支的深度逻辑推理的能力，结果发现当前最先进的模型在这项任务上仍有很大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15557

1️⃣ 一句话总结

arXiv ID: 2603.14819

1️⃣ 一句话总结

arXiv ID: 2603.14845

1️⃣ 一句话总结

arXiv ID: 2603.15563

1️⃣ 一句话总结

arXiv ID: 2603.15600

1️⃣ 一句话总结

arXiv ID: 2603.14701

1️⃣ 一句话总结

arXiv ID: 2603.14719

1️⃣ 一句话总结

arXiv ID: 2603.12254

1️⃣ 一句话总结

arXiv ID: 2603.11975

1️⃣ 一句话总结

arXiv ID: 2603.12266

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15557 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14845 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15600 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14701 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14719 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12254 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11975 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12266 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15557

arXiv ID: 2603.14819

arXiv ID: 2603.14845

arXiv ID: 2603.15563

arXiv ID: 2603.15600

arXiv ID: 2603.14701

arXiv ID: 2603.14719

arXiv ID: 2603.12254

arXiv ID: 2603.11975

arXiv ID: 2603.12266