arXiv最新AI论文速览速学

🔍

标签: #multi-modal fusion ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: Multi-Modal Hyper-Graph Fusion for Low-Light Crowd Counting 06-18

arXiv ID: 2606.18566

arXiv 提交日期: 2026-06-17

computer vision data benchmark crowd counting low-light multi-modal fusion hyper-graph attention

多模态超图融合的低光照人群计数方法 / Multi-Modal Hyper-Graph Fusion for Low-Light Crowd Counting

1️⃣ 一句话总结

该论文针对低光照环境下人群计数困难的问题，构建了三个新的低光照数据集，并提出了一种融合RGB图像、深度信息和边缘结构的多模态超图网络，通过动态超边构建和自适应稀疏注意力机制，显著提升了极暗和复杂光照条件下的计数准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28604

arXiv 提交日期: 2026-05-27

multi-modal computer vision video important person identification spatio-temporal cues temporal importance shift video dataset multi-modal fusion

挖掘多模态时空线索用于视频重要人物识别 / Mining Multi-Modality Spatio-Temporal Cues for Video Important Person Identification

1️⃣ 一句话总结

本文提出一种新任务——视频重要人物识别，通过构建大规模带文本解释的数据集和设计融合多模态时空线索的VIP-Net框架，有效解决了视频中人物重要性随时间动态变化的问题，准确率大幅超越现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10177

arXiv 提交日期: 2026-05-11

reinforcement learning computer vision robotics autonomous driving multi-modal fusion 3d affordances zero-shot generalization carla simulator

MTA-RL：基于多模态Transformer的三维可通行空间与强化学习的鲁棒城市自动驾驶 / MTA-RL: Robust Urban Driving via Multi-modal Transformer-based 3D Affordances and Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为MTA-RL的新框架，通过结合多模态Transformer和强化学习，将摄像头图像和激光雷达数据融合成易于理解的3D可通行空间信息，从而使自动驾驶决策更稳定、更高效，并在模拟环境中展现出远超现有方法的事故率降低和跨场景泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25680

arXiv 提交日期: 2026-04-28

medical computer vision audio remote photoplethysmography neonatal pain detection facial video analysis signal quality assessment multi-modal fusion

基于面部视频的远程光电容积描记法用于新生儿疼痛检测的探索 / Exploring Remote Photoplethysmography for Neonatal Pain Detection from Facial Videos

1️⃣ 一句话总结

该研究提出了一种非接触式方法，通过分析面部视频中的远程光电容积描记信号来检测新生儿的疼痛，并利用信号质量指标筛选最优信号，结果表明结合蓝色通道信号和音频特征能显著提升检测效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18790

arXiv 提交日期: 2026-04-20

computer vision model training depth completion multi-modal fusion real-time sparse lidar lightweight

高效穿透网络：通过轻量级多模态融合实现稀疏激光雷达的实时深度补全 / EfficientPENet: Real-Time Depth Completion from Sparse LiDAR via Lightweight Multi-Modal Fusion

1️⃣ 一句话总结

本文提出了一种轻量级深度补全网络EfficientPENet，通过融合稀疏激光雷达数据和RGB图像，在保持高精度的同时，大幅降低参数量和计算延迟，实现了在资源受限的边缘设备（如NVIDIA Jetson）上的实时运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24327

arXiv 提交日期: 2026-03-25

multi-modal model training computer vision self-supervised learning representation learning fusion tokens multi-modal fusion vision transformers

Le MuMo JEPA：一种使用可学习融合令牌的多模态自监督表示学习框架 / Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens

1️⃣ 一句话总结

这篇论文提出了一种名为Le MuMo JEPA的新型自监督学习框架，它通过引入可学习的‘融合令牌’来高效整合图像和激光雷达深度等多模态数据，从而在自动驾驶等任务中，以更低的计算成本学习到性能更强的统一特征表示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10719

arXiv 提交日期: 2026-02-11

computer vision agents systems autonomous driving vision-language models end-to-end planning multi-modal fusion behavior analysis

从表征互补到双系统：协同视觉语言模型与纯视觉骨干网络实现端到端驾驶 / From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

1️⃣ 一句话总结

这篇论文发现，在自动驾驶系统中，结合了语言理解的视觉模型和纯视觉模型在决策行为上存在互补性，并据此设计了一个高效的双系统框架，让系统能根据场景智能选择使用哪种模型，从而在保证性能的同时大幅提升运行效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21454

arXiv 提交日期: 2026-01-29

computer vision robotics systems sensor calibration autonomous driving multi-modal fusion auto-labeling 4d radar

4D-CAAL：面向自动驾驶的4D雷达-相机联合标定与自动标注框架 / 4D-CAAL: 4D Radar-Camera Calibration and Auto-Labeling for Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一个名为4D-CAAL的统一框架，它通过设计一种双用途标定靶，同时解决了4D雷达与相机的高精度联合标定难题，并利用标定结果将相机图像的标注自动转移到稀疏的雷达点云上，从而大大减少了自动驾驶多模态感知系统开发所需的人工标注工作量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18566

1️⃣ 一句话总结

arXiv ID: 2605.28604

1️⃣ 一句话总结

arXiv ID: 2605.10177

1️⃣ 一句话总结

arXiv ID: 2604.25680

1️⃣ 一句话总结

arXiv ID: 2604.18790

1️⃣ 一句话总结

arXiv ID: 2603.24327

1️⃣ 一句话总结

arXiv ID: 2602.10719

1️⃣ 一句话总结

arXiv ID: 2601.21454

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18566 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10177 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18790 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24327 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10719 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21454 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18566

arXiv ID: 2605.28604

arXiv ID: 2605.10177

arXiv ID: 2604.25680

arXiv ID: 2604.18790

arXiv ID: 2603.24327

arXiv ID: 2602.10719

arXiv ID: 2601.21454