arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 254 最新: Foundations and Architectures of Artificial Intelligence for Motor Insurance 03-20

arXiv ID: 2512.03405

arXiv 提交日期: 2025-12-03

multi-modal video benchmark video difference captioning multimodal evaluation comparative reasoning video understanding dataset

ViDiC：视频差异描述 / ViDiC: Video Difference Captioning

1️⃣ 一句话总结

这篇论文提出了一个名为ViDiC的新任务和对应数据集，旨在让多模态大语言模型能够精细地描述视频之间的异同，并发现现有模型在这方面的能力仍有显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03125

arXiv 提交日期: 2025-12-02

multi-modal model training machine learning continual learning catastrophic forgetting multimodal models gradient conflict knowledge distillation

缓解统一多模态模型持续学习中的模态内与模态间遗忘 / Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一种名为MoDE的轻量级架构，通过将不同模态的学习过程解耦，有效解决了统一多模态模型在持续学习新任务时，不仅会在单一模态内部遗忘旧知识，还会在不同模态之间相互干扰导致遗忘的关键难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03046

arXiv 提交日期: 2025-12-02

computer vision model training multi-modal image editing diffusion models visual cues layered composition spatial control

MagicQuillV2：基于分层视觉提示的精确交互式图像编辑 / MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

1️⃣ 一句话总结

这篇论文提出了一个名为MagicQuillV2的新系统，它通过将图像编辑意图分解为内容、位置、结构和颜色等多个可独立控制的分层视觉提示，从而让用户能像使用传统图形软件一样，对AI生成过程进行更直观和精细的控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03043

arXiv 提交日期: 2025-12-02

multi-modal model training agents visual reasoning multimodal llm reinforcement learning unified model video understanding

OneThinker：面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video

1️⃣ 一句话总结

这篇论文提出了一个名为OneThinker的统一模型，它能够同时处理图像和视频的多种核心视觉理解任务（如问答、描述、定位和分割），并通过创新的训练方法解决了多任务学习中的奖励不平衡问题，在多个基准测试上表现出色，向通用的多模态推理专家迈进了一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03040

arXiv 提交日期: 2025-12-02

video generation computer vision multi-modal visuospatial reasoning video diffusion models scene navigation object grounding spatial consistency

Video4Spatial：通过上下文引导的视频生成迈向视觉空间智能 / Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为Video4Spatial的框架，它证明仅通过视频数据训练的视频生成模型，就能像人一样理解复杂的空间关系，并成功完成场景导航和物体定位等需要空间推理的任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03036

arXiv 提交日期: 2025-12-02

multi-modal audio video generation binaural audio video-to-audio conditional flow matching spatial audio generation audio-visual alignment

ViSAudio：端到端的视频驱动双耳空间音频生成 / ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ViSAudio的端到端框架，能够直接从无声视频生成具有空间沉浸感的双耳音频，克服了传统两阶段方法导致的误差累积问题，并通过新构建的数据集和模型在实验中取得了优于现有方法的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03013

arXiv 提交日期: 2025-12-02

video generation model training multi-modal portrait video editing in-context learning lora temporal synchronization diffusion models

基于上下文同步LoRA的人像视频编辑 / In-Context Sync-LoRA for Portrait Video Editing

1️⃣ 一句话总结

这篇论文提出了一种名为Sync-LoRA的新方法，它通过使用少量经过严格筛选的同步人像视频进行训练，能够在对人像视频进行外观、表情或背景等多样化编辑的同时，精确保持原始视频中人物的动作轨迹和身份一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03000

arXiv 提交日期: 2025-12-02

computer vision multi-modal systems 4d reconstruction dynamic scene understanding video depth estimation bundle adjustment multimodal dataset

DynamicVerse：一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

1️⃣ 一句话总结

这篇论文提出了一个名为DynamicVerse的新框架，它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D（三维+时间）动态世界数据集，从而帮助AI更准确地理解和模拟真实物理世界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02924

arXiv 提交日期: 2025-12-02

systems model training multi-modal hardware-aware design vision-language models edge ai quantization neural processing units

AutoNeural：为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference

1️⃣ 一句话总结

这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构，它通过专门为神经处理单元（NPU）的硬件特性进行协同设计，解决了现有模型在NPU上运行效率低下的问题，从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02835

arXiv 提交日期: 2025-12-02

computer vision multi-modal reinforcement learning video object segmentation reasoning chain vision language models reinforcement learning interpretability

ReVSeg：利用强化学习激励视频分割中的推理链 / ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为ReVSeg的新方法，它通过将复杂的视频对象分割任务分解为语义理解、时序证据选择和空间定位三个明确的步骤，并利用强化学习来优化这个多步推理链，从而在提升分割性能的同时，让模型的推理过程变得可解释。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.03405

1️⃣ 一句话总结

arXiv ID: 2512.03125

1️⃣ 一句话总结

arXiv ID: 2512.03046

1️⃣ 一句话总结

arXiv ID: 2512.03043

1️⃣ 一句话总结

arXiv ID: 2512.03040

1️⃣ 一句话总结

arXiv ID: 2512.03036

1️⃣ 一句话总结

arXiv ID: 2512.03013

1️⃣ 一句话总结

arXiv ID: 2512.03000

1️⃣ 一句话总结

arXiv ID: 2512.02924

1️⃣ 一句话总结

arXiv ID: 2512.02835

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.03405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03046 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03040 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03000 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02924 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02835 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.03405

arXiv ID: 2512.03125

arXiv ID: 2512.03046

arXiv ID: 2512.03043

arXiv ID: 2512.03040

arXiv ID: 2512.03036

arXiv ID: 2512.03013

arXiv ID: 2512.03000

arXiv ID: 2512.02924

arXiv ID: 2512.02835