arXiv最新AI论文速览速学

🔍

标签: #vision transformer ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Backbone is All You Need: Assessing Vulnerabilities of Frozen Foundation Models in Synthetic Image Forensics 05-16

arXiv ID: 2605.13381

arXiv 提交日期: 2026-05-13

computer vision machine learning model evaluation adversarial attack deepfake detection vision transformer synthetic image forensics gray-box attack

骨干网络即一切：评估冻结基础模型在合成图像取证中的脆弱性 / Backbone is All You Need: Assessing Vulnerabilities of Frozen Foundation Models in Synthetic Image Forensics

1️⃣ 一句话总结

本文发现，当前许多基于视觉Transformer的深度伪造检测器，由于依赖冻结的预训练骨干网络，存在一个关键漏洞：攻击者只需知道检测器使用的骨干网络类型，无需完整模型信息，就能通过一种名为SIAA的灰盒攻击方法，生成能轻易欺骗检测器的对抗样本，其攻击成功率往往接近白盒攻击水平，这警示我们需要更稳健的防御策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.03999

arXiv 提交日期: 2026-05-05

computer vision medical model training semantic segmentation vision transformer recurrent depth cardiac mri data efficiency

RD-ViT：用于语义分割的循环深度视觉Transformer，降低数据依赖性 / RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction

1️⃣ 一句话总结

该论文提出了一种名为RD-ViT的视觉Transformer模型，通过用一个可以循环使用的共享模块替代传统多个独立模块，并引入状态注入、自适应计算时间和专家混合等技术，使得模型在训练数据较少时也能达到甚至超越标准ViT的分割精度，同时参数量更少、计算效率更高。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25316

arXiv 提交日期: 2026-04-28

computer vision machine learning domain adaptation weed detection drone imagery rumex classification vision transformer

面向无人机图像的鲁棒深度学习阔叶酸模检测方法 / Towards Robust Deep Learning-based Rumex Obtusifolius Detection from Drone Images

1️⃣ 一句话总结

本文研究了将地面车辆训练的深度学习模型迁移至无人机图像进行杂草检测的难题，发现传统卷积神经网络（如ResNet）在跨场景时表现不佳，而采用域自适应技术或自监督预训练的视觉Transformer（如DINOv2）能显著提升鲁棒性，并在新发布的瑞士草地无人机数据集上达到了F1=0.8的高分类性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21311

arXiv 提交日期: 2026-04-23

medical computer vision vision transformer brain tumor classification mri interpretability attention rollout

一种可解释的视觉Transformer框架用于自动脑肿瘤分类 / an interpretable vision transformer framework for automated brain tumor classification

1️⃣ 一句话总结

本文提出了一种基于视觉Transformer的深度学习模型，用于自动将脑部MRI扫描图像分类为脑膜瘤、胶质瘤、垂体瘤或健康组织，并通过注意力可视化技术让医生能够理解模型判断的依据，最终达到了99%以上的分类准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19350

arXiv 提交日期: 2026-04-21

medical computer vision model training breast cancer mammogram vision transformer contrastive learning fine-grained classification

关注重点：利用视觉基础模型进行基于乳腺X光图像的乳腺癌分类 / Attend what matters: Leveraging vision foundational models for breast cancer classification using mammograms

1️⃣ 一句话总结

该论文提出了一种结合目标检测、对比学习和自监督视觉Transformer（DINOv2）的框架，通过减少无关图像区域、强化对相似病变的区分能力，有效提升了乳腺X光片中乳腺癌检测的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21712

arXiv 提交日期: 2026-04-20

computer vision machine learning 3d human mesh recovery occlusion robust diffusion model vision transformer fusion

判别-生成协同框架：面向遮挡鲁棒的3D人体网格恢复 / Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery

1️⃣ 一句话总结

本文提出了一种模仿人脑机制的混合框架，将视觉Transformer的判别能力与扩散模型的生成能力相结合，通过特征对齐与跨层级融合，在严重遮挡下仍能准确恢复真实感十足的3D人体模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17899

arXiv 提交日期: 2026-04-20

computer vision machine learning model training micro-expression recognition feature decoupling action units vision transformer emotion modeling

运动-情感特征解耦网络用于微表情识别 / MEDN: Motion-Emotion Feature Decoupling Network for Micro-Expression Recognition

1️⃣ 一句话总结

该论文提出了一种名为MEDN的双分支网络，通过将微表情中的面部运动特征和情感特征分离后融合，解决了因不同情绪共享相似动作单元而导致的识别难题，显著提升了微表情识别的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13795

arXiv 提交日期: 2026-04-15

medical computer vision model training vision transformer weakly supervised learning lymphoma diagnosis pathology whole-slide image

基于弱监督训练与Vision Transformer的人工智能在淋巴瘤诊断中的应用 / Artificial intelligence application in lymphoma diagnosis with Vision Transformer using weakly supervised training

1️⃣ 一句话总结

本研究提出了一种使用弱监督训练方法训练的Vision Transformer模型，能够以高准确度自动区分两种淋巴瘤亚型，为临床病理诊断提供了一种更实用的人工智能辅助工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11508

arXiv 提交日期: 2026-04-13

model training model evaluation computer vision fine-tuning catastrophic forgetting sample retention architecture comparison vision transformer

并非所有遗忘都相同：微调图像分类器中依赖架构的保留动态 / Not All Forgetting Is Equal: Architecture-Dependent Retention Dynamics in Fine-Tuned Image Classifiers

1️⃣ 一句话总结

这项研究发现，在微调图像分类器时，哪些样本容易被遗忘强烈依赖于所使用的神经网络架构（如CNN和ViT），并且这种遗忘模式在不同训练中并不稳定，这挑战了‘样本难度是固有属性’的假设，并对课程学习、数据剪枝和集成学习等方法提出了新见解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10970

arXiv 提交日期: 2026-04-13

computer vision medical model training self-supervised learning protein localization microscopy transfer learning vision transformer

利用自监督学习预训练的深度学习模型进行蛋白质定位 / Using Deep Learning Models Pretrained by Self-Supervised Learning for Protein Localization

1️⃣ 一句话总结

这项研究表明，在大型显微图像数据集上通过自监督学习预训练的视觉模型，即使不经过额外调整，也能有效地迁移到不同实验条件下的小规模蛋白质定位任务中，显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.13381

1️⃣ 一句话总结

arXiv ID: 2605.03999

1️⃣ 一句话总结

arXiv ID: 2604.25316

1️⃣ 一句话总结

arXiv ID: 2604.21311

1️⃣ 一句话总结

arXiv ID: 2604.19350

1️⃣ 一句话总结

arXiv ID: 2604.21712

1️⃣ 一句话总结

arXiv ID: 2604.17899

1️⃣ 一句话总结

arXiv ID: 2604.13795

1️⃣ 一句话总结

arXiv ID: 2604.11508

1️⃣ 一句话总结

arXiv ID: 2604.10970

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.13381 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.03999 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25316 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21311 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19350 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21712 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13795 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11508 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10970 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.13381

arXiv ID: 2605.03999

arXiv ID: 2604.25316

arXiv ID: 2604.21311

arXiv ID: 2604.19350

arXiv ID: 2604.21712

arXiv ID: 2604.17899

arXiv ID: 2604.13795

arXiv ID: 2604.11508

arXiv ID: 2604.10970