arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 74 72小时内新更新论文 72h更新 162 最新: Vib2ECG: A Paired Chest-Lead SCG-ECG Dataset and Benchmark for ECG Reconstruction 03-23

arXiv ID: 2601.00863

arXiv 提交日期: 2025-12-30

multi-modal theory aigc generative framework music generation cross-domain mapping vibrational analysis creative ai

选择性不完美：一种用于分析、创造与发现的生成框架 / Selective Imperfection as a Generative Framework for Analysis, Creativity and Discovery

1️⃣ 一句话总结

这篇论文提出了一个名为‘物质音乐’的创新框架，通过将物质（如蛋白质、蛛网）的振动和结构模式映射为音乐元素，揭示了科学与艺术创造都源于在约束条件下通过‘选择性不完美’来探索新可能，并发现优秀音乐作品与高强度材料在‘中等缺陷’水平上遵循相似的优化原理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24138

arXiv 提交日期: 2025-12-30

model training reinforcement learning multi-modal diffusion models reward hacking regularization text-to-image sample efficiency

GARDO：避免奖励黑客的扩散模型强化方法 / GARDO: Reinforcing Diffusion Models without Reward Hacking

1️⃣ 一句话总结

这篇论文提出了一个名为GARDO的新框架，它通过选择性惩罚高不确定性样本、动态更新参考模型以及奖励高质量且多样化的生成结果，有效解决了扩散模型在强化学习微调中常见的奖励黑客、探索不足和模式崩溃问题，从而在不牺牲效率的前提下提升了图像生成的质量和多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24330

arXiv 提交日期: 2025-12-30

multi-modal agents reinforcement learning vision-language models tool usage agentic reasoning benchmark policy optimization

SenseNova-MARS：通过强化学习赋能多模态智能体推理与搜索 / SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为SenseNova-MARS的新框架，它通过强化学习教会视觉语言模型像人一样，在解决复杂的视觉问题时，能动态、连贯地交替使用图像搜索、文本搜索和图像裁剪等多种外部工具，从而在知识密集型任务上超越了GPT-5等顶尖模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24271

arXiv 提交日期: 2025-12-30

multi-modal model training video video understanding hallucination reduction counterfactual data generation diffusion models contrastive training

驯服幻觉：通过反事实视频生成提升多模态大语言模型的视频理解能力 / Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为DualityForge的新方法，通过自动生成违背常识的反事实视频及其问答对来训练多模态大模型，有效减少了模型在视频理解中因过度依赖文本先验而产生的‘幻觉’错误，并在多个测试中显著提升了性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24165

arXiv 提交日期: 2025-12-30

multi-modal model training computer vision multimodal reasoning diffusion models vision-centric tasks generative reasoning image-to-image

DiffThinker：迈向基于扩散模型的生成式多模态推理 / DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为DiffThinker的新方法，它将多模态推理任务直接当作生成图像的过程来处理，相比现有主流模型，在需要视觉逻辑和空间精度的复杂任务上表现更出色，效率更高且可控性更强。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24210

arXiv 提交日期: 2025-12-30

robotics multi-modal agents vision-language-action dexterous manipulation bimanual robot teleoperation real-robot data

GR-Dexter技术报告 / GR-Dexter Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为GR-Dexter的软硬件一体化框架，它通过设计灵巧的双手机器人、便捷的遥操作系统以及创新的数据训练方法，成功实现了让机器人能像人一样根据语言指令完成各种复杂的双手操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24297

arXiv 提交日期: 2025-12-30

llm agents multi-modal visual reasoning multimodal reasoning reinforcement learning mathematical reasoning structural reasoning

图形化思考：通过主动视觉思维提升推理前沿 / Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

1️⃣ 一句话总结

这篇论文提出了一种名为FIGR的新方法，它通过让AI在解决复杂问题时主动绘制图形来辅助思考，从而显著提升了在数学推理等需要理解空间和结构关系任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24385

arXiv 提交日期: 2025-12-30

multi-modal systems model training autonomous systems sensor fusion pre-training spatial intelligence foundation models

锻造空间智能：面向自主系统的多模态数据预训练路线图 / Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

1️⃣ 一句话总结

这篇论文提出了一个用于整合摄像头、激光雷达等多传感器数据的统一预训练框架与分类体系，旨在解决自主系统（如自动驾驶汽车和无人机）实现强大空间智能所面临的关键挑战，并规划了未来通用多模态基础模型的发展路线。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24097

arXiv 提交日期: 2025-12-30

multi-modal model training video temporal grounding video-language models preference optimization factorized learning evidence referencing

面向时序定位视频语言模型的因子化学习 / Factorized Learning for Temporally Grounded Video-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为D²VLM的新框架，通过将视频理解中的时序定位和文本生成两个任务解耦并强调其依赖关系，并引入一种新的因子化偏好优化算法，显著提升了模型对视频中事件进行精准时间定位和可靠回答的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23412

arXiv 提交日期: 2025-12-29

agents multi-modal model training tool-integrated reasoning multimodal chain-of-thought autonomous agents benchmark evaluation agent training infrastructure

MindWatcher：迈向更智能的多模态工具集成推理 / MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MindWatcher的新型智能体，它能够像人一样自主思考、调用各种工具（如图像搜索）来解决复杂的跨领域问题，其核心创新在于让模型在推理过程中随时切换思考和工具调用，并通过高效训练实现了比更大模型更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.00863

1️⃣ 一句话总结

arXiv ID: 2512.24138

1️⃣ 一句话总结

arXiv ID: 2512.24330

1️⃣ 一句话总结

arXiv ID: 2512.24271

1️⃣ 一句话总结

arXiv ID: 2512.24165

1️⃣ 一句话总结

arXiv ID: 2512.24210

1️⃣ 一句话总结

arXiv ID: 2512.24297

1️⃣ 一句话总结

arXiv ID: 2512.24385

1️⃣ 一句话总结

arXiv ID: 2512.24097

1️⃣ 一句话总结

arXiv ID: 2512.23412

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.00863 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24138 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24330 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24271 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24210 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24297 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24385 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24097 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23412 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.00863

arXiv ID: 2512.24138

arXiv ID: 2512.24330

arXiv ID: 2512.24271

arXiv ID: 2512.24165

arXiv ID: 2512.24210

arXiv ID: 2512.24297

arXiv ID: 2512.24385

arXiv ID: 2512.24097

arXiv ID: 2512.23412