arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 150 最新: Foundations and Architectures of Artificial Intelligence for Motor Insurance 03-20

arXiv ID: 2602.17665

arXiv 提交日期: 2026-02-19

agents multi-modal systems geospatial agents remote sensing tool augmentation satellite imagery multimodal reasoning

OpenEarthAgent：一个用于工具增强地理空间智能体的统一框架 / OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

1️⃣ 一句话总结

这篇论文提出了一个名为OpenEarthAgent的统一框架，通过训练模型结合卫星图像、自然语言查询和多步骤推理，使AI能够像专家一样理解和分析复杂的地理空间问题，比如城市发展、环境监测和灾害评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17535

arXiv 提交日期: 2026-02-19

medical multi-modal model evaluation conformal prediction domain adaptation uncertainty quantification vision-language models transductive learning

LATA：用于医学视觉语言模型置信度预测的拉普拉斯辅助直推式适应方法 / LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

1️⃣ 一句话总结

本文提出了一种名为LATA的新方法，它能在不重新训练模型、也几乎不需要额外标注的情况下，有效提升医学视觉语言模型在陌生数据上预测结果的可信度，使其预测更准确、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17270

arXiv 提交日期: 2026-02-19

model training computer vision multi-modal latent representation diffusion models image generation video generation training efficiency

统一潜变量（UL）：如何训练你的潜变量 / Unified Latents (UL): How to train your latents

1️⃣ 一句话总结

这篇论文提出了一个名为‘统一潜变量’的新框架，它通过巧妙结合扩散模型的先验知识和解码器，能够用更少的计算量高效地学习图像和视频数据的压缩表示，并在多个基准测试中取得了领先的重建质量和生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16687

arXiv 提交日期: 2026-02-18

audio model training multi-modal audio foundation models scaling laws discrete tokens next-token prediction speech-to-speech translation

通过交织语义、声学和文本标记来扩展开放离散音频基础模型 / Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens

1️⃣ 一句话总结

这篇论文提出了一种新的音频基础模型SODA，它通过同时学习音频的语义内容、声学细节和文本信息，能够灵活地处理多种音频生成和跨模态任务，并首次揭示了此类模型的扩展规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16590

arXiv 提交日期: 2026-02-18

computer vision model training multi-modal contrastive learning image classification attention mechanism fine-tuning street-view

基于注意力特征自适应的对比学习框架在街景图像分类中的应用 / A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为CLIP-MHAdapter的轻量级改进方法，通过在预训练视觉语言模型CLIP上添加一个带有多头自注意力机制的小型网络模块，使其能更有效地捕捉街景图像中细粒度的局部特征，从而以较低的算力成本在多个街景属性分类任务上取得了领先或具有竞争力的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16681

arXiv 提交日期: 2026-02-18

multi-modal model training model evaluation time series anomaly detection zero-shot learning vision-language alignment contrastive learning temporal modeling

VETime：视觉增强的零样本时间序列异常检测 / VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection

1️⃣ 一句话总结

这篇论文提出了一个名为VETime的新框架，它通过巧妙地将时间序列数据与视觉表示对齐并融合，有效结合了两种模型的优势，从而在无需特定数据训练的情况下，更精准地检测出时间序列中的各类异常点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16412

arXiv 提交日期: 2026-02-18

multi-modal model training video video understanding motion representation long-video multimodal llm compressed representation

ReMoRa：基于精细化运动表征的多模态大语言模型，用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为ReMoRa的新模型，它通过直接处理视频压缩后的运动表征而非大量原始图像帧，高效地解决了多模态大模型理解长视频时计算量过大的难题，并在多个长视频理解测试中取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16149

arXiv 提交日期: 2026-02-18

computer vision model evaluation multi-modal demographic bias image editing fairness evaluation vision-language models identity preservation

评估图像到图像人像编辑中的人口统计学误表征 / Evaluating Demographic Misrepresentation in Image-to-Image Portrait Editing

1️⃣ 一句话总结

这篇论文研究发现，当前流行的图像编辑AI工具在处理不同种族、性别和年龄的人像时，会系统性地出现编辑效果减弱或强加刻板印象的偏见问题，并提出了一个无需修改模型即可显著减少对少数群体偏见的简单解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16290

arXiv 提交日期: 2026-02-18

natural language processing llm multi-modal arabic dialects multidialectal generation machine translation low-resource languages pluricentric language modeling

Aladdin-FTI @ AMIYA：阿拉伯语自然语言处理的三个愿望：保真度、双言现象与多方言生成 / Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation

1️⃣ 一句话总结

这篇论文提出了一个名为Aladdin-FTI的系统，它能够生成和翻译多种阿拉伯语方言，旨在利用大语言模型技术解决阿拉伯语方言因非标准化和高变异性而在自然语言处理中长期面临的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15281

arXiv 提交日期: 2026-02-17

systems model training multi-modal federated learning network orchestration service assurance stochastic network calculus tail latency

面向联邦AI即服务的高保真网络管理：跨域编排 / High-Fidelity Network Management for Federated AI-as-a-Service: Cross-Domain Orchestration

1️⃣ 一句话总结

这篇论文提出了一种新的管理框架，通过引入一种名为‘尾部风险包络’的可组合描述符，帮助通信服务商在多域联合环境下，确保AI即服务从网络传输到模型推理的端到端高性能和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.17665

1️⃣ 一句话总结

arXiv ID: 2602.17535

1️⃣ 一句话总结

arXiv ID: 2602.17270

1️⃣ 一句话总结

arXiv ID: 2602.16687

1️⃣ 一句话总结

arXiv ID: 2602.16590

1️⃣ 一句话总结

arXiv ID: 2602.16681

1️⃣ 一句话总结

arXiv ID: 2602.16412

1️⃣ 一句话总结

arXiv ID: 2602.16149

1️⃣ 一句话总结

arXiv ID: 2602.16290

1️⃣ 一句话总结

arXiv ID: 2602.15281

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.17665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17535 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16687 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16590 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16412 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16149 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16290 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15281 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.17665

arXiv ID: 2602.17535

arXiv ID: 2602.17270

arXiv ID: 2602.16687

arXiv ID: 2602.16590

arXiv ID: 2602.16681

arXiv ID: 2602.16412

arXiv ID: 2602.16149

arXiv ID: 2602.16290

arXiv ID: 2602.15281