arXiv最新AI论文速览速学

🔍

标签: #multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation 05-02

arXiv ID: 2604.19202

arXiv 提交日期: 2026-04-21

computer vision multi-modal model generation 3d gaussian splatting sketch-driven editing face generation uv feature map real-time rendering

SketchFaceGS：基于高斯点绘的实时手绘驱动人脸编辑与生成 / SketchFaceGS: Real-Time Sketch-Driven Face Editing and Generation with Gaussian Splatting

1️⃣ 一句话总结

本文提出了一种名为SketchFaceGS的新方法，能让用户通过简单的手绘草图，实时生成或编辑逼真的3D人脸模型，它先用草图预测粗糙的3D结构，再自动添加细节，并支持像画画一样轻松修改局部外观。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19386

arXiv 提交日期: 2026-04-21

multi-modal machine learning composed image retrieval noisy triplet correspondence robust learning multimodal large language model knowledge distillation

Air-Know：基于仲裁器校准与知识内化的鲁棒组合图像检索网络 / Air-Know: Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval

1️⃣ 一句话总结

本文提出了一种名为Air-Know的新型鲁棒网络，通过引入多模态大模型作为外部专家来校准数据噪声，并利用轻量级仲裁器内化专家知识，从而有效解决了组合图像检索中由“部分匹配”等语义歧义导致的噪声干扰问题，显著提升了检索的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19734

arXiv 提交日期: 2026-04-21

robotics machine learning multi-modal humanoid policy learning world modeling cross-embodiment transfer latent action token

UniT：面向人至人形机器人策略学习与世界建模的统一物理语言 / UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

1️⃣ 一句话总结

UniT框架通过一种基于视觉锚定的统一潜在动作分词器，将人类动作数据转化为不依赖具体身体结构的物理意图编码，从而让人形机器人能高效从海量人类视频中学习，并在策略控制与视频生成任务上实现零样本跨形态迁移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19858

arXiv 提交日期: 2026-04-21

multi-modal text-to-image aigc diffusion transformers multi-modal understanding reinforcement learning professional image generation identity preservation

万像：突破生成式视觉智能的边界 / Wan-Image: Pushing the Boundaries of Generative Visual Intelligence

1️⃣ 一句话总结

本文提出了一种名为Wan-Image的统一视觉生成系统，通过融合大语言模型的认知能力与扩散Transformer的高保真像素合成，并借助大规模多模态数据训练和精细标注，实现了从普通图像生成到专业级图像创作工具的跨越，解决了复杂文字渲染、多主体身份保持、精确编辑等关键难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19888

arXiv 提交日期: 2026-04-21

computer vision multi-modal machine learning gaze estimation driver monitoring transformer attention benchmark dataset point-of-gaze

SGAP-Gaze：基于场景网格注意力的驾驶员注视点估计网络 / SGAP-Gaze: Scene Grid Attention Based Point-of-Gaze Estimation Network for Driver Gaze

1️⃣ 一句话总结

该论文提出了一种结合驾驶员面部信息和周围交通场景图像的新型注视点估计模型SGAP-Gaze，通过引入基于Transformer的场景网格注意力机制，将视觉线索与场景上下文融合，在真实驾驶环境下显著提升了注视点预测的精度，特别是在场景边缘区域也有更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19748

arXiv 提交日期: 2026-04-21

computer vision aigc multi-modal virtual try-on image generation garment preservation real-time inference benchmark

Tstars-Tryon 1.0：面向多样化时尚单品的鲁棒且逼真的虚拟试穿系统 / Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

1️⃣ 一句话总结

本文提出了一套商业级的虚拟试穿系统Tstars-Tryon 1.0，通过优化模型架构、数据处理和推理速度，能够处理复杂真实场景（如极端姿势、光线变化），实现高保真度的服装细节还原，并支持多种时尚品类和多人组合搭配，已在淘宝App大规模部署并服务千万用户。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19702

arXiv 提交日期: 2026-04-21

computer vision multi-modal 4d face reconstruction dynamic tracking canonical coordinates depth estimation transformer

任意面孔：从任意图像序列实现4D人脸重建 / Face Anything: 4D Face Reconstruction from Any Image Sequence

1️⃣ 一句话总结

本文提出了一种统一的人脸4D重建方法，通过预测每个像素在标准人脸空间中的坐标，能够从任意图像序列中同时恢复高精度的三维形状、表情变化和密集跟踪，相比现有方法将对应误差降低约3倍、深度精度提升16%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19105

arXiv 提交日期: 2026-04-21

multi-modal motion generation egocentric diffusion reasoning-generation hierarchical vision-language

EgoMotion：面向第一人称视角的视觉-语言运动生成的层级推理与扩散方法 / EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation

1️⃣ 一句话总结

本文提出了一种名为EgoMotion的两阶段生成框架，先通过视觉语言模型进行认知推理以理解第一人称视角下的场景和指令，再使用扩散模型生成连贯且符合物理规律的人体运动，有效解决了推理与生成相互干扰的难题，在性能上超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19587

arXiv 提交日期: 2026-04-21

computer vision model training multi-modal image editing reasoning-to-generation photographic enhancement reinforcement learning image quality

SmartPhotoCrafter：面向自动照片图像编辑的统一推理、生成与优化 / SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

1️⃣ 一句话总结

本文提出了一种名为SmartPhotoCrafter的自动照片编辑方法，它像一位智能摄影师，先自动分析照片的不足之处，再针对性地进行修复和美化，无需用户提供任何专业指令，就能生成媲美专业后期效果的图片。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19631

arXiv 提交日期: 2026-04-21

computer vision video multi-modal dynamic scene graph generation motion-guided semantic alignment video understanding relationship modeling action semantic matching

MoSA：面向动态场景图生成的运动引导语义对齐方法 / MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation

1️⃣ 一句话总结

本文提出了一种名为MoSA的方法，通过提取物体间的运动特征（如速度、距离）并将其与空间关系融合，再借助文本语义对齐技术，显著提升了视频中物体间动态关系的识别能力，尤其对罕见关系类型的建模效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.19202

1️⃣ 一句话总结

arXiv ID: 2604.19386

1️⃣ 一句话总结

arXiv ID: 2604.19734

1️⃣ 一句话总结

arXiv ID: 2604.19858

1️⃣ 一句话总结

arXiv ID: 2604.19888

1️⃣ 一句话总结

arXiv ID: 2604.19748

1️⃣ 一句话总结

arXiv ID: 2604.19702

1️⃣ 一句话总结

arXiv ID: 2604.19105

1️⃣ 一句话总结

arXiv ID: 2604.19587

1️⃣ 一句话总结

arXiv ID: 2604.19631

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.19202 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19386 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19734 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19888 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19748 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19105 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19587 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19631 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.19202

arXiv ID: 2604.19386

arXiv ID: 2604.19734

arXiv ID: 2604.19858

arXiv ID: 2604.19888

arXiv ID: 2604.19748

arXiv ID: 2604.19702

arXiv ID: 2604.19105

arXiv ID: 2604.19587

arXiv ID: 2604.19631