arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 35 72小时内新更新论文 72h更新 162 最新: Vib2ECG: A Paired Chest-Lead SCG-ECG Dataset and Benchmark for ECG Reconstruction 03-23

arXiv ID: 2601.18157

arXiv 提交日期: 2026-01-26

agents multi-modal video egocentric video long-horizon reasoning entity scene graphs agentic framework video understanding

智能体驱动的超长视频理解 / Agentic Very Long Video Understanding

1️⃣ 一句话总结

这项研究提出了一种名为EGAgent的新框架，它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频，从而在复杂的长时视频理解任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18759

arXiv 提交日期: 2026-01-26

multi-modal systems aigc ui design retrieval-augmented generation interactive system example-driven workflow source transparency

UI Remix：通过交互式示例检索与重组支持用户界面设计 / UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing

1️⃣ 一句话总结

这篇论文介绍了一个名为UI Remix的交互式AI系统，它通过多模态检索增强生成技术，帮助非专业设计者轻松地搜索、选择和重组移动界面设计示例，从而提升他们的设计效率、探索能力和对设计方案的信心。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18027

arXiv 提交日期: 2026-01-25

llm agents multi-modal social simulation emotion modeling agent memory pad representation long-horizon continuity

Sentipolis：用于社会模拟的情感感知智能体 / Sentipolis: Emotion-Aware Agents for Social Simulations

1️⃣ 一句话总结

这项研究提出了一个名为Sentipolis的新框架，它通过让AI智能体拥有持续的情感状态和记忆，解决了现有社会模拟中情感短暂、缺乏长期一致性的问题，从而能更真实地模拟人际关系的变化和形成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17644

arXiv 提交日期: 2026-01-25

multi-modal model evaluation systems privacy retrieval-augmented generation multimodal rag information leakage empirical study

多模态检索增强生成（mRAG）隐私的系统性评估 / A Systemic Evaluation of Multimodal RAG Privacy

1️⃣ 一句话总结

这篇论文通过实证研究发现，用于视觉任务的多模态检索增强生成（mRAG）系统在推理过程中存在泄露其背后私有数据集信息的风险，强调了为其开发隐私保护机制的必要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17736

arXiv 提交日期: 2026-01-25

natural language processing multi-modal systems data visualization interaction design multimodal llm natural language interface visualization authoring

Athanor：通过自然语言为静态可视化图表创作基于动作修改的交互功能 / Athanor: Authoring Action Modification-based Interactions on Static Visualizations via Natural Language

1️⃣ 一句话总结

这篇论文提出了一种名为Athanor的新方法，它利用多模态大语言模型和自然语言指令，让用户无需编程就能轻松地将现有的静态数据图表（如图片或截图）转换成可交互的图表。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17645

arXiv 提交日期: 2026-01-25

multi-modal llm benchmark multimodal evaluation cultural reasoning audio-visual understanding meme comprehension contextual knowledge

AVMeme测试：一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

1️⃣ 一句话总结

这篇论文提出了一个名为AVMeme Exam的基准测试，通过评估AI模型对网络流行音视频（如音乐、音效）在文化背景下的理解能力，发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17761

arXiv 提交日期: 2026-01-25

multi-modal model training natural language processing autoregressive modeling multimodal generation unified architecture any-to-any generation transformer decoder

AR-Omni：一个用于任意模态间生成任务的统一自回归模型 / AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

1️⃣ 一句话总结

这篇论文提出了一个名为AR-Omni的统一模型，它仅用一个自回归解码器就能同时处理文本、图像和语音的生成任务，并通过创新的训练和推理方法解决了多模态统一建模中的关键难题，实现了高质量且实时的多模态生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17340

arXiv 提交日期: 2026-01-24

computer vision multi-modal model training image super-resolution diffusion models text recognition dataset real-world images

TEXTS-Diff：面向真实世界文本图像超分辨率的文本感知扩散模型 / TEXTS-Diff: TEXTS-Aware Diffusion Model for Real-World Text Image Super-Resolution

1️⃣ 一句话总结

本文提出了一个名为TEXTS-Diff的文本感知扩散模型，并构建了一个大规模真实世界文本图像数据集Real-Texts，旨在同时高质量地恢复图像背景和模糊、扭曲的文字，显著提升了复杂场景下文本图像超分辨率的整体视觉效果和文字可读性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17277

arXiv 提交日期: 2026-01-24

natural language processing benchmark multi-modal code-switching multilingual dialogue benchmark dataset dialogue evaluation language models

PingPong：多轮语码转换对话的自然基准 / PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues

1️⃣ 一句话总结

这篇论文提出了一个名为PingPong的新基准数据集，它包含了真实、多线程的多语言混合对话，用于评估和改进自然语言处理模型在处理复杂、自然的语码转换对话方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17237

arXiv 提交日期: 2026-01-24

computer vision model training multi-modal vision backbone knowledge distillation multi-teacher learning any-resolution vitdet

C-RADIOv4 技术报告 / C-RADIOv4 (Tech Report)

1️⃣ 一句话总结

这篇技术报告介绍了C-RADIOv4模型，它通过整合多个先进教师模型的优势，在保持计算量不变的前提下，显著提升了多种视觉任务（如图像理解、分割）的性能，并新增了支持任意分辨率、高效高分辨率处理等实用功能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.18157

1️⃣ 一句话总结

arXiv ID: 2601.18759

1️⃣ 一句话总结

arXiv ID: 2601.18027

1️⃣ 一句话总结

arXiv ID: 2601.17644

1️⃣ 一句话总结

arXiv ID: 2601.17736

1️⃣ 一句话总结

arXiv ID: 2601.17645

1️⃣ 一句话总结

arXiv ID: 2601.17761

1️⃣ 一句话总结

arXiv ID: 2601.17340

1️⃣ 一句话总结

arXiv ID: 2601.17277

1️⃣ 一句话总结

arXiv ID: 2601.17237

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.18157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18759 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17644 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17736 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17645 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17340 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17277 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17237 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.18157

arXiv ID: 2601.18759

arXiv ID: 2601.18027

arXiv ID: 2601.17644

arXiv ID: 2601.17736

arXiv ID: 2601.17645

arXiv ID: 2601.17761

arXiv ID: 2601.17340

arXiv ID: 2601.17277

arXiv ID: 2601.17237