arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.14703

arXiv 提交日期: 2026-04-16

computer vision model training model evaluation image manipulation localization adversarial evidence reinforcement learning segmentation forensics

像素的法庭审判：通过对抗性证据与强化学习判决实现鲁棒的图像篡改定位 / The Courtroom Trial of Pixels: Robust Image Manipulation Localization via Adversarial Evidence and Reinforcement Learning Judgment

1️⃣ 一句话总结

这篇论文提出了一种新颖的法庭审判式框架，通过让‘控方’和‘辩方’分别提出图像篡改与真实的证据，并引入一个强化学习‘法官’对不确定区域进行最终裁决，从而显著提升了在篡改痕迹微弱或模糊情况下的图像篡改定位准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15310

arXiv 提交日期: 2026-04-16

computer vision multi-modal model training image relighting lighting control conditional generation synthetic data inverse rendering

TokenLight：使用属性令牌对图像进行精确光照控制 / TokenLight: Precise Lighting Control in Images using Attribute Tokens

1️⃣ 一句话总结

这篇论文提出了一种名为TokenLight的图像重光照方法，它通过引入属性令牌来精确、连续地控制照片中的多种光照属性（如亮度、颜色和光源位置），无需复杂的逆向渲染监督就能生成逼真的光照效果，在合成和真实图像上都取得了优异的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15312

arXiv 提交日期: 2026-04-16

computer vision multi-modal systems event cameras stereo matching cross-modal prompting 3d perception representation learning

用于事件-帧非对称立体视觉的双向跨模态提示 / Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo

1️⃣ 一句话总结

这篇论文提出了一种名为Bi-CMPStereo的新方法，通过双向跨模态提示，有效融合事件相机和传统帧相机的互补优势，显著提升了在快速运动和复杂光照条件下进行三维立体视觉匹配的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15173

arXiv 提交日期: 2026-04-16

computer vision model training data temporal action segmentation active learning boundary detection video annotation label efficiency

面向时序动作分割的边界中心主动学习 / Boundary-Centric Active Learning for Temporal Action Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为B-ACT的主动学习方法，它通过智能地将标注资源集中用于视频中难以确定、易出错的动作边界区域，从而在标注数据有限的情况下，显著提升了时序动作分割模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14591

arXiv 提交日期: 2026-04-16

computer vision model training aigc image editing autoregressive models prompt guidance logit nudging masking scheme

基于掩码逻辑微调提示引导的视觉自回归模型图像编辑 / Prompt-Guided Image Editing with Masked Logit Nudging in Visual Autoregressive Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘掩码逻辑微调’的新方法，让AI模型能够根据文字指令精准地编辑图片中指定的部分，同时完美保留图片中不需要修改的区域，并且编辑速度比当前主流方法快得多。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14632

arXiv 提交日期: 2026-04-16

computer vision systems model training hdr imaging modulo sensors spike cameras diffusion priors high-speed capture

通过解包模数编码脉冲流实现高速全彩色高动态范围成像 / High-Speed Full-Color HDR Imaging via Unwrapping Modulo-Encoded Spike Streams

1️⃣ 一句话总结

这项研究提出了一种全新的高速全彩色高动态范围成像系统，它通过创新的模数编码和解包算法，解决了传统方法在动态范围和速度上的矛盾，实现了在动态场景下以1000帧/秒的速率进行高质量成像，同时大幅降低了数据带宽。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14866

arXiv 提交日期: 2026-04-16

medical computer vision multi-modal dental imaging vision-language models dataset creation clinical annotation medical vqa

MetaDent：为牙科视觉语言模型标注临床图像 / MetaDent: Labeling Clinical Images for Vision-Language Models in Dentistry

1️⃣ 一句话总结

这篇论文提出了一个名为MetaDent的牙科图像数据集和标注框架，旨在解决牙科领域缺乏精细标注数据的问题，并通过评估发现当前先进的视觉语言模型在理解牙科临床图像细节方面仍存在困难。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14706

arXiv 提交日期: 2026-04-16

computer vision multi-modal 3d gaussian splatting nerf object segmentation 3d reconstruction neural rendering

NG-GS：基于神经辐射场引导的三维高斯泼溅分割 / NG-GS: NeRF-Guided 3D Gaussian Splatting Segmentation

1️⃣ 一句话总结

这项研究提出了一种名为NG-GS的新方法，通过结合神经辐射场（NeRF）的连续表示优势来优化三维高斯泼溅（3DGS）技术，有效解决了3DGS在物体边界分割时因离散表示而产生的锯齿和伪影问题，从而实现了更精准、平滑的三维物体分割效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14643

arXiv 提交日期: 2026-04-16

computer vision model evaluation systems adversarial attacks remote sensing image classification physical robustness transferability

物理诱导的大气对抗性扰动：提升遥感图像分类的迁移性与鲁棒性 / Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Image Classification

1️⃣ 一句话总结

这篇论文提出了一种名为FogFool的物理对抗攻击方法，它通过模拟自然雾霾来生成视觉逼真的对抗样本，不仅能有效欺骗遥感图像分类模型，还具备很强的跨模型迁移能力和抗防御鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14582

arXiv 提交日期: 2026-04-16

computer vision model evaluation systems land cover mapping super-resolution vision foundation models weak supervision prompt-driven

MapSR：通过视觉基础模型实现提示驱动的地表覆盖图超分辨率 / MapSR: Prompt-Driven Land Cover Map Super-Resolution via Vision Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为MapSR的新方法，它利用预训练好的视觉基础模型，仅需一次低分辨率标签就能快速生成高分辨率的地表覆盖图，无需大量标注数据和长时间训练，大大降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.14703

1️⃣ 一句话总结

arXiv ID: 2604.15310

1️⃣ 一句话总结

arXiv ID: 2604.15312

1️⃣ 一句话总结

arXiv ID: 2604.15173

1️⃣ 一句话总结

arXiv ID: 2604.14591

1️⃣ 一句话总结

arXiv ID: 2604.14632

1️⃣ 一句话总结

arXiv ID: 2604.14866

1️⃣ 一句话总结

arXiv ID: 2604.14706

1️⃣ 一句话总结

arXiv ID: 2604.14643

1️⃣ 一句话总结

arXiv ID: 2604.14582

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.14703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15310 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15312 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14591 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14632 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14866 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14582 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.14703

arXiv ID: 2604.15310

arXiv ID: 2604.15312

arXiv ID: 2604.15173

arXiv ID: 2604.14591

arXiv ID: 2604.14632

arXiv ID: 2604.14866

arXiv ID: 2604.14706

arXiv ID: 2604.14643

arXiv ID: 2604.14582