arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 249 最新: Foundations and Architectures of Artificial Intelligence for Motor Insurance 03-20

arXiv ID: 2602.22431

arXiv 提交日期: 2026-02-25

audio multi-modal model training speech reconstruction generative adversarial networks mmwave radar bandwidth extension low snr

用于低信噪比信号语音重建的毫米波雷达感知双条件生成对抗网络 / mmWave Radar Aware Dual-Conditioned GAN for Speech Reconstruction of Signals With Low SNR

1️⃣ 一句话总结

这项研究提出了一种名为RAD-GAN的两阶段智能语音重建方法，它能有效利用毫米波雷达信号，即使信号被玻璃墙阻挡且质量很差，也能清晰还原出人声。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22150

arXiv 提交日期: 2026-02-25

computer vision model training multi-modal diffusion models conditional image generation representation learning progressive training unified framework

CoLoGen：渐进式学习概念-定位二元性以实现统一图像生成 / CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为CoLoGen的统一图像生成框架，它通过渐进式学习来巧妙解决不同图像生成任务中‘概念理解’与‘空间定位’之间的内在冲突，从而能更好地处理编辑、可控生成等多种复杂任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21497

arXiv 提交日期: 2026-02-25

llm multi-modal model evaluation multimodal reasoning visual hallucination chain-of-thought training-free benchmark

看见它，说出它，搞定它：一种用于大型视觉语言模型视觉基础多模态推理的免训练迭代框架 / See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、即插即用的轻量级方法，通过让大型视觉语言模型在推理的每一步都严格依据图像证据来生成回答，有效解决了多模态推理中视觉幻觉传播导致答案错误的问题，显著提升了多个基准测试的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21464

arXiv 提交日期: 2026-02-25

audio multi-modal data speech emotion recognition affective computing spontaneous speech multimodal dataset sentiment analysis

iMiGUE-Speech：一个用于情感分析的自发性语音数据集 / iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis

1️⃣ 一句话总结

这篇论文发布了一个名为iMiGUE-Speech的新数据集，它通过记录人们在真实比赛结果后的自然对话来捕捉自发情感，为研究语音和文本中的真实情绪提供了宝贵资源，并可用于多模态情感分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21788

arXiv 提交日期: 2026-02-25

model training systems multi-modal parallel training dynamic parallelism scaling efficiency multimodal llm distributed systems

DHP：基于动态混合并行化的多模态大语言模型高效扩展训练方法 / DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism

1️⃣ 一句话总结

本文提出了一种名为动态混合并行（DHP）的新训练方法，它能根据多模态数据的巨大差异自动调整计算资源的分配方式，从而在保持高效扩展的同时，显著提升多模态大语言模型的训练速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21698

arXiv 提交日期: 2026-02-25

multi-modal model evaluation aigc e-commerce posters quality assessment chinese content chain-of-thought benchmark

E-comIQ-ZH：一个用于电商海报细粒度评估的、符合人类判断的数据集与基准框架 / E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

1️⃣ 一句话总结

这篇论文针对中文电商海报质量缺乏有效自动化评估工具的问题，创建了一个包含多维评分和专家推理说明的大规模数据集，并基于此训练了一个能像人类专家一样评判海报质量的专用模型，为电商海报生成提供了首个可扩展的自动化评估基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22143

arXiv 提交日期: 2026-02-25

medical multi-modal model training medical vision-language pretraining text normalization structured reports data preprocessing radiology

MedTri：一个用于结构化医学报告规范化以增强视觉语言预训练的平台 / MedTri: A Platform for Structured Medical Report Normalization to Enhance Vision-Language Pretraining

1️⃣ 一句话总结

这篇论文提出了一个名为MedTri的平台，它能将格式不一的原始医学报告自动整理成统一的结构化格式，从而为医学影像的AI模型提供更清晰、更相关的文本指导，有效提升了模型的训练效果和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21824

arXiv 提交日期: 2026-02-25

multi-modal computer vision natural language processing synthetic data generation vision-language models document understanding handwriting synthesis privacy-preserving ai

DocDjinn：基于视觉语言模型和手写扩散的可控合成文档生成框架 / DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion

1️⃣ 一句话总结

这篇论文提出了一个名为DocDjinn的新框架，它利用视觉语言模型和手写扩散技术，仅需少量真实文档作为“种子”，就能自动生成大量高质量、带标注的合成文档，有效解决了文档智能模型训练中数据稀缺和隐私保护的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21992

arXiv 提交日期: 2026-02-25

computer vision reinforcement learning multi-modal 3d spatial reasoning vision-language models panoramic images reinforcement learning fine-tuning vqa benchmark

PanoEnv：在360度全景环境中利用强化学习探索三维空间智能 / PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为PanoEnv的大规模全景视觉问答数据集和一个基于强化学习的训练框架，有效提升了视觉语言模型在扭曲的全景图像中进行三维空间推理的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22120

arXiv 提交日期: 2026-02-25

aigc model evaluation multi-modal text-to-image geographical bias diversity metrics fairness evaluation vision-language models

GeoDiv：用于衡量文本到图像模型地理多样性的框架 / GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

1️⃣ 一句话总结

这篇论文提出了一个名为GeoDiv的新框架，它利用大语言和视觉语言模型来系统评估文本生成图像模型（如Stable Diffusion）在描绘不同国家和地区时存在的偏见和缺乏多样性问题，发现模型倾向于对某些发展中国家（如印度、尼日利亚）产生贫困、破旧的刻板描绘。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.22431

1️⃣ 一句话总结

arXiv ID: 2602.22150

1️⃣ 一句话总结

arXiv ID: 2602.21497

1️⃣ 一句话总结

arXiv ID: 2602.21464

1️⃣ 一句话总结

arXiv ID: 2602.21788

1️⃣ 一句话总结

arXiv ID: 2602.21698

1️⃣ 一句话总结

arXiv ID: 2602.22143

1️⃣ 一句话总结

arXiv ID: 2602.21824

1️⃣ 一句话总结

arXiv ID: 2602.21992

1️⃣ 一句话总结

arXiv ID: 2602.22120

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.22431 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22150 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21497 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21464 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21788 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21698 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21824 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21992 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22120 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.22431

arXiv ID: 2602.22150

arXiv ID: 2602.21497

arXiv ID: 2602.21464

arXiv ID: 2602.21788

arXiv ID: 2602.21698

arXiv ID: 2602.22143

arXiv ID: 2602.21824

arXiv ID: 2602.21992

arXiv ID: 2602.22120