arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 127 最新: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting 03-22

arXiv ID: 2602.07689

arXiv 提交日期: 2026-02-07

multi-modal video model evaluation video reasoning process-of-thought temporal grounding interpretability vision-language models

视频的思维过程推理 / Process-of-Thought Reasoning for Videos

1️⃣ 一句话总结

这篇论文提出了一个名为‘思维过程’的视频推理框架，它将复杂的视频理解任务分解成一系列可验证的步骤，从而让推理过程更清晰、更准确，并减少错误，同时适用于不同的现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07434

arXiv 提交日期: 2026-02-07

robotics multi-modal agents human-robot interaction vision language model edge computing emotional coherence multimodal coordination

连接语音、情感与动作：一种基于视觉语言模型、可部署于边缘的人形机器人多模态交互框架 / Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots

1️⃣ 一句话总结

这篇论文提出了一个名为SeM²的智能框架，它能让机器人像人一样，在说话时自然地协调语音、面部表情和身体动作来表达情感，并且这个框架经过优化后可以直接在机器人自带的设备上高效运行，无需依赖云端。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07506

arXiv 提交日期: 2026-02-07

robotics computer vision multi-modal facial expression imitation real-time system human-robot interaction motion transfer feature adaptation

VividFace：面向仿人机器人的实时逼真面部表情模仿系统 / VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots

1️⃣ 一句话总结

这篇论文提出了一个名为VividFace的系统，它能让仿人机器人以极低的延迟（0.05秒内）实时、逼真地模仿人类的面部表情，从而显著提升机器人的拟人化表现和情感交互能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07207

arXiv 提交日期: 2026-02-06

multi-modal model training systems sequential recommendation multimodal transformer item-item graphs self-attention collaborative filtering

多模态序列推荐的增强 / Multimodal Enhancement of Sequential Recommendation

1️⃣ 一句话总结

这篇论文提出了一个名为MuSTRec的新推荐系统框架，它通过结合物品的文本和图像信息来构建物品关系图，并利用注意力机制捕捉用户的长短期偏好，从而在多个数据集上显著超越了现有的先进推荐方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05441

arXiv 提交日期: 2026-02-05

robotics multi-modal benchmark affordance generalization vision-language-action models physical benchmark manipulation evaluation

使用BusyBox基准测试具身智能模型的“可供性”泛化能力 / Benchmarking Affordance Generalization with BusyBox

1️⃣ 一句话总结

这篇论文提出了一个名为BusyBox的物理测试平台，用于系统评估视觉-语言-动作模型在面对新物体时，能否根据其熟悉的物理特征（如开关、旋钮）进行正确操作的能力，发现现有先进模型在此类“可供性”泛化任务上仍面临巨大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05220

arXiv 提交日期: 2026-02-05

audio multi-modal model training audio foundation model audio captioning unified understanding generation speech synthesis audio generation

风笛手：通过丰富描述解决开放式音频任务 / Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions

1️⃣ 一句话总结

这篇论文提出了一个名为Bagpiper的通用音频基础模型，它通过将原始音频信号与全面的自然语言描述（即“丰富描述”）相互映射，无需针对特定任务进行专门训练，就能统一处理音频理解和生成等多种复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05827

arXiv 提交日期: 2026-02-05

agents multi-modal computer vision vision-language navigation video generation long-horizon planning sparse prediction zero-shot evaluation

稀疏视频生成推动现实世界超视距视觉语言导航 / Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种名为SparseVideoNav的新方法，它首次将视频生成模型引入超视距导航任务，通过生成稀疏的未来视频帧来指导机器人快速规划长距离路径，从而在现实复杂场景（包括夜间）中，以远超现有技术的成功率实现了仅凭简单高层指令的自主导航。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05480

arXiv 提交日期: 2026-02-05

computer vision multi-modal data remote sensing image alignment sar-optical dataset multi-task learning

SOMA-1M：一个用于多任务遥感的大规模合成孔径雷达-光学多分辨率对齐数据集 / SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing

1️⃣ 一句话总结

这篇论文发布了一个包含超过130万对精确对齐的合成孔径雷达与光学遥感图像的大型数据集，旨在解决现有数据在规模、分辨率和对齐精度上的不足，并通过实验证明该数据集能显著提升多种跨模态遥感视觉任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05423

arXiv 提交日期: 2026-02-05

computer vision multi-modal model training 3d reconstruction neural radiance fields novel view synthesis depth estimation bundle adjustment

NeVStereo：一种用于高保真3D任务的NeRF驱动的新视角合成-立体视觉架构 / NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为NeVStereo的新框架，它巧妙地将神经渲染和立体视觉技术结合起来，只用普通拍摄的彩色照片，就能同时高精度地计算出相机位置、深度图、生成新视角画面并重建出高质量的3D模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05588

arXiv 提交日期: 2026-02-05

medical systems multi-modal mixed reality medical training augmented reality surgical simulation haptic feedback

用于分娩训练中稳健人体模型定位的混合现实系统 / A Mixed Reality System for Robust Manikin Localization in Childbirth Training

1️⃣ 一句话总结

这项研究开发了一套混合现实分娩训练系统，它通过外部摄像头和算法精准定位物理人体模型，让医学生能在没有专家全程监督的情况下，结合虚拟指导和真实触感进行独立练习，显著提升了训练效果和学员偏好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.07689

1️⃣ 一句话总结

arXiv ID: 2602.07434

1️⃣ 一句话总结

arXiv ID: 2602.07506

1️⃣ 一句话总结

arXiv ID: 2602.07207

1️⃣ 一句话总结

arXiv ID: 2602.05441

1️⃣ 一句话总结

arXiv ID: 2602.05220

1️⃣ 一句话总结

arXiv ID: 2602.05827

1️⃣ 一句话总结

arXiv ID: 2602.05480

1️⃣ 一句话总结

arXiv ID: 2602.05423

1️⃣ 一句话总结

arXiv ID: 2602.05588

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.07689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07434 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07506 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05220 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05480 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05423 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05588 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.07689

arXiv ID: 2602.07434

arXiv ID: 2602.07506

arXiv ID: 2602.07207

arXiv ID: 2602.05441

arXiv ID: 2602.05220

arXiv ID: 2602.05827

arXiv ID: 2602.05480

arXiv ID: 2602.05423

arXiv ID: 2602.05588