arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 127 最新: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting 03-22

arXiv ID: 2602.11146

arXiv 提交日期: 2026-02-11

model training computer vision multi-modal diffusion models reward modeling preference optimization latent space image alignment

超越基于视觉语言模型的奖励：扩散模型原生潜在奖励建模 / Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为DiNa-LRM的新方法，它直接在扩散模型的内部潜在空间中评估图像质量，从而以更低的计算成本实现了与主流视觉语言模型相当的图像偏好对齐效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10675

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark visual chain-of-thought dynamic reasoning video question answering dataset video generation

TwiFF（与未来帧共思）：用于动态视觉推理的大规模数据集 / TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了首个用于动态视觉问答的大规模数据集TwiFF-2.7M和评估基准TwiFF-Bench，并开发了一个能通过生成未来视频帧来辅助推理的模型，显著提升了AI在理解动态视频内容并进行复杂推理方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10858

arXiv 提交日期: 2026-02-11

computer vision multi-modal model training hyperspectral imaging smoke segmentation prototype learning spectral band weighting wildfire management

基于原型混合的高光谱烟雾分割 / Hyperspectral Smoke Segmentation via Mixture of Prototypes

1️⃣ 一句话总结

这篇论文通过提出一个结合原型混合和自适应波段加权的新网络，并创建了首个高光谱烟雾分割数据集，有效解决了传统方法在云层干扰和半透明烟雾区域分割上的难题，显著提升了烟雾分割的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10458

arXiv 提交日期: 2026-02-11

reinforcement learning agents multi-modal autonomous driving vision-language models knowledge distillation reward shaping asynchronous inference

Found-RL：基于基础模型增强的强化学习用于自动驾驶 / Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

1️⃣ 一句话总结

这篇论文提出了一个名为Found-RL的平台，它通过异步批量推理框架和多种监督机制，将大型视觉语言模型的知识高效地融入强化学习，从而在保持实时推理速度的同时，显著提升了自动驾驶策略的样本效率和语义理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10516

arXiv 提交日期: 2026-02-11

computer vision multi-modal aigc 3d talking avatar audio-driven generation lip synchronization facial animation virtual humans

3DXTalker：在富有表现力的3D说话数字人中统一身份、唇形同步、情感与空间动态 / 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

1️⃣ 一句话总结

这篇论文提出了一个名为3DXTalker的新方法，它通过创新的数据处理、丰富的音频特征和可控的空间动态生成技术，在一个统一的框架内解决了3D说话数字人生成中身份保持、唇形同步、情感表达和头部姿态自然运动等多个关键难题，显著提升了数字人的表现力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10551

arXiv 提交日期: 2026-02-11

llm multi-modal model training positional encoding 3d vision causal reasoning multimodal models attention mechanism

C^2ROPE：用于三维大型多模态模型推理的因果连续旋转位置编码 / C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为C^2ROPE的改进位置编码方法，通过同时考虑视觉特征的空间连续性和因果依赖关系，解决了现有三维大模型在处理长序列视觉信息时容易丢失空间细节和忽略早期内容的问题，从而提升了模型在三维场景理解和问答任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10814

arXiv 提交日期: 2026-02-11

agents benchmark multi-modal gui agents block-based programming multimodal evaluation visuomotor control program construction

看、规划、点击：在Scratch中评估多模态图形界面智能体 / See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

1️⃣ 一句话总结

这篇论文提出了一个名为ScratchWorld的新评估基准，用于全面测试AI智能体在Scratch图形化编程环境中通过操作界面来构建、调试和扩展程序的能力，并发现当前智能体在高级规划与精细界面操作之间存在明显差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10815

arXiv 提交日期: 2026-02-11

model training multi-modal machine learning vision-language models reinforcement learning supervised fine-tuning out-of-distribution generalization data difficulty

为什么强化学习比监督微调泛化得更好？从数据中心的视角看视觉语言模型的后训练 / Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

1️⃣ 一句话总结

这篇论文发现，在视觉语言模型的后训练中，强化学习比监督微调泛化能力更好的原因在于它隐式地筛选了中等难度的训练数据，并据此提出了一种通过显式筛选数据难度来提升模型泛化能力且更高效稳定的新方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09839

arXiv 提交日期: 2026-02-10

benchmark multi-modal model evaluation multimodal retrieval knowledge domains reasoning skills hard negatives evaluation gap

ARK：一个沿推理与知识双轴的多模态检索基准 / ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

1️⃣ 一句话总结

这篇论文提出了一个名为ARK的新型多模态检索基准，它从知识领域和推理技能两个维度来评估模型，发现现有模型在处理需要专业知识和复杂推理的任务时存在明显不足，并指出精细视觉和空间推理是当前的主要瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09523

arXiv 提交日期: 2026-02-10

medical multi-modal model training computational pathology vision-language model dataset synthesis fine-tuning cervical cytology

Singpath-VL技术报告 / Singpath-VL Technical Report

1️⃣ 一句话总结

这篇论文提出了一个专门用于宫颈细胞病理学分析的AI助手Singpath-VL，它通过创新的方法生成大规模合成数据集来训练模型，从而在细胞形态识别和诊断分类任务上表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.11146

1️⃣ 一句话总结

arXiv ID: 2602.10675

1️⃣ 一句话总结

arXiv ID: 2602.10858

1️⃣ 一句话总结

arXiv ID: 2602.10458

1️⃣ 一句话总结

arXiv ID: 2602.10516

1️⃣ 一句话总结

arXiv ID: 2602.10551

1️⃣ 一句话总结

arXiv ID: 2602.10814

1️⃣ 一句话总结

arXiv ID: 2602.10815

1️⃣ 一句话总结

arXiv ID: 2602.09839

1️⃣ 一句话总结

arXiv ID: 2602.09523

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.11146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10675 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10458 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09839 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09523 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.11146

arXiv ID: 2602.10675

arXiv ID: 2602.10858

arXiv ID: 2602.10458

arXiv ID: 2602.10516

arXiv ID: 2602.10551

arXiv ID: 2602.10814

arXiv ID: 2602.10815

arXiv ID: 2602.09839

arXiv ID: 2602.09523