arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 220 72小时内新更新论文 72h更新 315 最新: What DINO saw: ALiBi positional encoding reduces positional bias in Vision Transformers 03-18

arXiv ID: 2603.02658

arXiv 提交日期: 2026-03-03

multi-modal computer vision natural language processing fashion intelligence vision-language model multi-task learning dataset dialogue system

OmniFashion：通过多任务视觉-语言学习迈向通用时尚智能 / OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

1️⃣ 一句话总结

这篇论文提出了一个名为OmniFashion的统一视觉-语言框架，它通过构建大规模数据集和创新的对话范式，将检索、推荐、识别等多种时尚任务整合在一起，实现了跨任务的准确理解和推理，为构建通用的、对话驱动的时尚智能系统提供了可行路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03418

arXiv 提交日期: 2026-03-03

computer vision model training machine learning hyperspectral image classification mamba architecture clustering guidance spatial-spectral features model explainability

mHC-HSI：用于高光谱图像分类的聚类引导超连接Mamba模型 / mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

1️⃣ 一句话总结

这篇论文提出了一种新的深度学习模型，通过引入聚类引导和物理知识分组，显著提升了高光谱图像分类的准确性和模型的可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02499

arXiv 提交日期: 2026-03-03

computer vision medical systems gait analysis 3d reconstruction biomechanics markerless motion capture kinematic estimation

生物力学精准步态分析：一种用于无标记步态参数估计的3D人体重建框架 / Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

1️⃣ 一句话总结

这篇论文提出了一种通过视频进行3D人体重建的新方法，它能像专业动作捕捉系统一样提取有生物力学意义的标记点，从而实现无需穿戴设备的精准步态分析，为临床和日常应用提供了更便捷、可靠的解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03101

arXiv 提交日期: 2026-03-03

computer vision model training machine learning zero-shot anomaly detection mixture of experts clip adaptation low-rank adaptation patch-level routing

MoECLIP：用于零样本异常检测的补丁专用专家模型 / MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

1️⃣ 一句话总结

这篇论文提出了一种名为MoECLIP的新方法，它通过为图像的不同局部区域动态分配专门的微调模块，在保持CLIP模型强大泛化能力的同时，显著提升了其在工业与医疗领域的零样本异常检测性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03075

arXiv 提交日期: 2026-03-03

systems computer vision model training semantic segmentation fpga deployment low-power inference synthetic aperture radar edge ai

TinyIceNet：面向星载FPGA推理的低功耗SAR海冰分割方法 / TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

1️⃣ 一句话总结

这篇论文提出了一种名为TinyIceNet的轻量化神经网络，它通过算法与硬件的协同设计，能够在卫星搭载的FPGA芯片上高效、低功耗地处理雷达图像，实现近实时的海冰分割，为极地航行安全提供及时信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03143

arXiv 提交日期: 2026-03-03

computer vision reinforcement learning multi-modal 3d scene editing multi-view consistency geometry guidance diffusion models reward design

几何引导的强化学习用于多视角一致的3D场景编辑 / Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

1️⃣ 一句话总结

这篇论文提出了一个名为RL3DEdit的新方法，它利用强化学习和一个3D基础模型的反馈信号，来指导2D扩散模型进行3D场景编辑，从而高效地生成多视角下看起来一致且高质量的编辑结果，解决了现有方法难以保持3D一致性的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03283

arXiv 提交日期: 2026-03-03

computer vision multi-modal model training point clouds self-supervised learning 3d representation transformer encoder domain generalization

Utonia：迈向适用于所有点云的统一编码器 / Utonia: Toward One Encoder for All Point Clouds

1️⃣ 一句话总结

这篇论文提出了一个名为Utonia的通用点云编码器，它通过自监督学习将来自遥感、自动驾驶、室内场景、CAD模型等多种不同来源的3D点云数据统一到一个模型中训练，从而学习到跨领域的一致表示，不仅提升了感知能力，还能增强机器人操作和空间推理等下游任务的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02727

arXiv 提交日期: 2026-03-03

medical computer vision model training medical image segmentation linear attention transformer efficient architecture boundary preservation

门控差分线性注意力：一种用于高保真医学分割的线性时间解码器 / Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为PVT-GDLA的新型医学图像分割模型，它通过创新的门控差分线性注意力机制，在保持线性计算复杂度的同时，显著提升了分割的精度和边界清晰度，为临床部署提供了既高效又准确的解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02522

arXiv 提交日期: 2026-03-03

computer vision model training machine learning masked autoencoder self-supervised learning earth observation remote sensing spatial dependencies

NeighborMAE：在掩码自编码器预训练中利用相邻地球观测图像间的空间依赖性 / NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

1️⃣ 一句话总结

这篇论文提出了一种名为NeighborMAE的新方法，它通过让AI模型同时学习重建相邻区域的卫星图像，有效利用了地球表面的连续性信息，从而在遥感图像的自监督学习任务上取得了比现有方法更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02907

arXiv 提交日期: 2026-03-03

computer vision model training systems shape representation harmonic beltrami signature deep learning architecture segmentation spatial transformer network

调和Beltrami签名网络：深度学习框架中的一种形状先验模块 / Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

1️⃣ 一句话总结

这篇论文提出了一种名为HBSN的新型深度学习模块，它能从图像中高效提取一种对平移、缩放和旋转不变的形状特征，并作为通用插件提升现有图像分割模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02658

1️⃣ 一句话总结

arXiv ID: 2603.03418

1️⃣ 一句话总结

arXiv ID: 2603.02499

1️⃣ 一句话总结

arXiv ID: 2603.03101

1️⃣ 一句话总结

arXiv ID: 2603.03075

1️⃣ 一句话总结

arXiv ID: 2603.03143

1️⃣ 一句话总结

arXiv ID: 2603.03283

1️⃣ 一句话总结

arXiv ID: 2603.02727

1️⃣ 一句话总结

arXiv ID: 2603.02522

1️⃣ 一句话总结

arXiv ID: 2603.02907

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03418 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02499 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03101 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03075 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03283 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02727 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02522 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02907 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02658

arXiv ID: 2603.03418

arXiv ID: 2603.02499

arXiv ID: 2603.03101

arXiv ID: 2603.03075

arXiv ID: 2603.03143

arXiv ID: 2603.03283

arXiv ID: 2603.02727

arXiv ID: 2603.02522

arXiv ID: 2603.02907