arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: VideoLatent: Video-Language Learning via Latent Self-Forcing 06-23

arXiv ID: 2606.22870

arXiv 提交日期: 2026-06-22

multi-modal llm model training video understanding latent reasoning multimodal llm efficiency chain-of-thought

VideoLatent：通过潜在自强制学习视频语言 / VideoLatent: Video-Language Learning via Latent Self-Forcing

1️⃣ 一句话总结

为了高效且低成本地提升多模态大模型对视频的理解与推理能力，本文提出了一种名为VideoLatent的新方法，它让模型在内部自动进行“潜在推理”，仅需视频、问题和答案这类简单数据即可训练，不仅性能全面超越现有模型，还将训练和推理的计算开销分别降低至原来的六分之一和六十八分之一。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22873

arXiv 提交日期: 2026-06-22

multi-modal llm model evaluation guardrail safety policy adaptation reinforcement learning benchmark

SingGuard：一种具有动态推理能力的策略自适应多模态大模型护栏 / SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning

1️⃣ 一句话总结

本文提出了一种名为SingGuard的多模态AI安全护栏，它能根据运行时输入的文本规则动态调整审查策略，灵活检测文本和图像组合中的安全风险，并在多个基准测试中达到最优性能，有效解决了现有方法无法适应不同场景下安全规则变化的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23005

arXiv 提交日期: 2026-06-22

medical multi-modal model evaluation preterm birth prediction multiple instance learning gaussian mixture model pooling method ultrasound

从点估计到分布：用于早产预测的多实例学习中的高斯混合模型池化 / From Point Estimates to Distributions: GMM Pooling for MIL in Preterm Birth Prediction

1️⃣ 一句话总结

本文提出了一种基于高斯混合模型的池化方法，将每个患者的多张超声图像特征分布建模为固定长度表示，从而更准确地预测早产风险，相比传统方法显著提升了性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23092

arXiv 提交日期: 2026-06-22

multi-modal benchmark model evaluation interpersonal relationship social reasoning visual cues multimodal llm psychology

PIVOTSBench：评估多模态大语言模型在细粒度人际关系推理中的能力 / PIVOTSBench: Evaluating Fine-Grained Interpersonal Relationship Reasoning in Multimodal Large Language Models

1️⃣ 一句话总结

该论文提出了PIVOTS基准测试，通过整合视频、对话和心理学维度，首次系统评估多模态大语言模型在双向、细微人际关系判断上的表现，并分析了视觉线索和社交角色对推理的影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22905

arXiv 提交日期: 2026-06-22

video generation multi-modal agents real-time streaming avatar generation visual consistency intent-aware diffusion model

交互式虚拟人：面向实时流式视频生成的一致性与意图感知虚拟人 / InteractiveAvatar: Real-Time Streaming Video Generation for Consistent and Intent-Aware Avatars

1️⃣ 一句话总结

本文提出了一种名为InteractiveAvatar的实时流式视频生成框架，通过自回归蒸馏实现无限时长生成，并引入长-短视觉记忆机制来保持画面连续性和一致性，同时借助推理-反应模块让虚拟人能够理解用户意图并做出相应的语音和动作回应，从而在复杂交互场景中生成既稳定又智能的虚拟形象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23680

arXiv 提交日期: 2026-06-22

robotics reinforcement learning multi-modal humanoid loco-manipulation dexterous hand residual reinforcement learning latent prior

CoorDex：协调身体与手部先验以实现连续灵巧的人形机器人移动操作 / CoorDex: Coordinating Body and Hand Priors for Continuous Dexterous Humanoid Loco-Manipulation

1️⃣ 一句话总结

本文提出了一种名为CoorDex的深度学习框架，让高自由度的人形机器人能够在行走中同时完成灵巧的手部操作（如抓取瓶子、开门等），通过将身体和手部控制转化为协调的潜在残差动作，解决了传统机器人“走走停停”且只能简单抓取的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23593

arXiv 提交日期: 2026-06-22

medical multi-modal machine learning error detection robot-assisted surgery surgical activity kinematic data video understanding

机器人辅助手术中的实时多模态活动感知错误检测 / Real-Time Multimodal Activity-Aware Error Detection in Robot-Assisted Surgery

1️⃣ 一句话总结

该论文提出了一种结合视频、运动数据和文字描述的统一框架，通过活动提示和视觉嵌入技术，显著提升了机器人辅助手术中技术错误检测的准确率，在两项公开数据集上分别将F1分数提升了5%和16.6%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22959

arXiv 提交日期: 2026-06-22

machine learning computer vision multi-modal sign language production pose encoding variational autoencoder latent diffusion text-to-sign

变分自编码器设计对基于扩散模型的手语生成中潜在姿态表征的影响 / The Impact of VAE Design on Latent Pose Representations for Diffusion-based Sign Language Production

1️⃣ 一句话总结

本文研究了在手语生成任务中，变分自编码器的结构和训练目标设计如何影响其潜在空间的性质，进而影响下游扩散模型的生成效果，并发现潜在空间的特性比单纯的重建精度更能解释生成质量的差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.19495

arXiv 提交日期: 2026-06-17

video generation computer vision multi-modal text-to-video 3d spatial control sparse 3d boxes video generation layout-conditioned

LooseControlVideo：使用空间阻挡实现导演级视频控制 / LooseControlVideo: Directorial Video Control using Spatial Blocking

1️⃣ 一句话总结

这篇论文提出了一种新方法，让用户只需通过简单拖拽几个3D方框（就像摆放舞台道具），就能轻松控制AI视频生成中多个物体的位置、轨迹和互动，大大简化了复杂场景的制作过程，并显著提升了生成视频的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18788

arXiv 提交日期: 2026-06-17

llm agents multi-modal handwriting synthesis svg generation language-driven style imitation multi-lingual

手写智能体：在可缩放矢量空间中基于语言驱动的手写合成 / HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space

1️⃣ 一句话总结

本文提出了一种名为HandwritingAgent的智能系统，它无需针对特定风格进行训练，仅通过自然语言指令和参考手写样例，就能在矢量图形格式中自动生成逼真、多变的手写笔画序列，并且效果优于现有方法，可广泛应用于模仿、识别、多语言乃至复杂数学公式的手写生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.22870

1️⃣ 一句话总结

arXiv ID: 2606.22873

1️⃣ 一句话总结

arXiv ID: 2606.23005

1️⃣ 一句话总结

arXiv ID: 2606.23092

1️⃣ 一句话总结

arXiv ID: 2606.22905

1️⃣ 一句话总结

arXiv ID: 2606.23680

1️⃣ 一句话总结

arXiv ID: 2606.23593

1️⃣ 一句话总结

arXiv ID: 2606.22959

1️⃣ 一句话总结

arXiv ID: 2606.19495

1️⃣ 一句话总结

arXiv ID: 2606.18788

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.22870 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23005 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23092 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22905 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23593 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22959 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.19495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18788 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.22870

arXiv ID: 2606.22873

arXiv ID: 2606.23005

arXiv ID: 2606.23092

arXiv ID: 2606.22905

arXiv ID: 2606.23680

arXiv ID: 2606.23593

arXiv ID: 2606.22959

arXiv ID: 2606.19495

arXiv ID: 2606.18788