arXiv最新AI论文速览速学

🔍

computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 82 72小时内新更新论文 72h更新 159 最新: Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation 05-05

arXiv ID: 2604.17748

arXiv 提交日期: 2026-04-20

computer vision model training multi-modal domain adaptation vision-language models source-free clip prompt learning

利用视觉-语言先验进行无源域适应 / Source-Free Domain Adaptation with Vision-Language Prior

1️⃣ 一句话总结

这篇论文提出了一种名为DIFO++的新方法，它利用现成的通用视觉-语言模型（如CLIP）的知识，通过交替进行模型定制和知识蒸馏两个步骤，来帮助一个已训练好的模型在没有源数据的情况下，更好地适应新的、只有未标记数据的目标领域，从而显著提升了适应性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18168

arXiv 提交日期: 2026-04-20

model training computer vision aigc text-to-image one-step generation meanflow discriminative representation text conditioning

通过判别性文本表示将基于类别标签的一步图像生成扩展至文本条件生成 / Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

1️⃣ 一句话总结

这篇论文发现，要将高效的‘一步生成’模型从简单的类别标签条件扩展到灵活的文本描述条件，关键在于确保文本特征具有高度的判别性，并成功通过适配强大的大语言模型文本编码器实现了这一目标，显著提升了文本到图像的生成性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18313

arXiv 提交日期: 2026-04-20

computer vision video model training open-vocabulary detection temporal action detection diffusion models cross-modal alignment video understanding

去噪与对齐：基于扩散模型的前景知识提示用于开放词汇时序动作检测 / Denoise and Align: Diffusion-Driven Foreground Knowledge Prompting for Open-Vocabulary Temporal Action Detection

1️⃣ 一句话总结

这篇论文提出了一个名为DFAlign的新方法，它利用扩散模型从视频中‘去噪’生成前景知识，以此作为桥梁来更好地匹配视频内容和抽象的动作标签，从而在开放词汇场景下更准确地检测出视频中未曾见过的动作片段。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17720

arXiv 提交日期: 2026-04-20

systems model training computer vision point cloud processing farthest point sampling computational efficiency neural network acceleration inference optimization

FlashFPS：通过剪枝与缓存实现大规模点云的高效最远点采样 / FlashFPS: Efficient Farthest Point Sampling for Large-Scale Point Clouds via Pruning and Caching

1️⃣ 一句话总结

这篇论文提出了一种名为FlashFPS的新方法，通过识别并消除点云神经网络中最远点采样操作中的三层计算冗余，实现了显著的加速效果，从而让处理大规模点云数据变得更快、更高效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18201

arXiv 提交日期: 2026-04-20

computer vision multi-modal model evaluation object grounding diffusion models remote sensing segmentation zero-shot learning

DiffuSAM：用于遥感图像的扩散模型引导零样本目标定位 / DiffuSAM: Diffusion Guided Zero-Shot Object Grounding for Remote Sensing Imagery

1️⃣ 一句话总结

这篇论文提出了一种名为DiffuSAM的新方法，它巧妙地将能够理解文本的扩散模型与先进的图像分割模型结合起来，无需额外训练就能在复杂的遥感图像中更准确地找到并框出目标物体，实验证明其定位准确率比现有最好方法提升了超过14%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14506

arXiv 提交日期: 2026-04-16

medical model training computer vision self-supervised learning masked image modeling attention guided masking co-distillation medical image analysis

用于医学图像自监督学习的、带有噪声教师的协同蒸馏注意力引导掩码图像建模 / Co-distilled attention guided masked image modeling with noisy teacher for self-supervised learning on medical images

1️⃣ 一句话总结

这篇论文提出了一种名为DAGMaN的新自监督学习方法，它通过一个带有噪声教师的协同蒸馏框架，在医学图像上智能地选择并遮盖关键区域进行预训练，从而在减少信息泄露的同时保持了模型的学习多样性，最终在多种医学图像分析任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14703

arXiv 提交日期: 2026-04-16

computer vision model training model evaluation image manipulation localization adversarial evidence reinforcement learning segmentation forensics

像素的法庭审判：通过对抗性证据与强化学习判决实现鲁棒的图像篡改定位 / The Courtroom Trial of Pixels: Robust Image Manipulation Localization via Adversarial Evidence and Reinforcement Learning Judgment

1️⃣ 一句话总结

这篇论文提出了一种新颖的法庭审判式框架，通过让‘控方’和‘辩方’分别提出图像篡改与真实的证据，并引入一个强化学习‘法官’对不确定区域进行最终裁决，从而显著提升了在篡改痕迹微弱或模糊情况下的图像篡改定位准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15310

arXiv 提交日期: 2026-04-16

computer vision multi-modal model training image relighting lighting control conditional generation synthetic data inverse rendering

TokenLight：使用属性令牌对图像进行精确光照控制 / TokenLight: Precise Lighting Control in Images using Attribute Tokens

1️⃣ 一句话总结

这篇论文提出了一种名为TokenLight的图像重光照方法，它通过引入属性令牌来精确、连续地控制照片中的多种光照属性（如亮度、颜色和光源位置），无需复杂的逆向渲染监督就能生成逼真的光照效果，在合成和真实图像上都取得了优异的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15312

arXiv 提交日期: 2026-04-16

computer vision multi-modal systems event cameras stereo matching cross-modal prompting 3d perception representation learning

用于事件-帧非对称立体视觉的双向跨模态提示 / Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo

1️⃣ 一句话总结

这篇论文提出了一种名为Bi-CMPStereo的新方法，通过双向跨模态提示，有效融合事件相机和传统帧相机的互补优势，显著提升了在快速运动和复杂光照条件下进行三维立体视觉匹配的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15173

arXiv 提交日期: 2026-04-16

computer vision model training data temporal action segmentation active learning boundary detection video annotation label efficiency

面向时序动作分割的边界中心主动学习 / Boundary-Centric Active Learning for Temporal Action Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为B-ACT的主动学习方法，它通过智能地将标注资源集中用于视频中难以确定、易出错的动作边界区域，从而在标注数据有限的情况下，显著提升了时序动作分割模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.17748

1️⃣ 一句话总结

arXiv ID: 2604.18168

1️⃣ 一句话总结

arXiv ID: 2604.18313

1️⃣ 一句话总结

arXiv ID: 2604.17720

1️⃣ 一句话总结

arXiv ID: 2604.18201

1️⃣ 一句话总结

arXiv ID: 2604.14506

1️⃣ 一句话总结

arXiv ID: 2604.14703

1️⃣ 一句话总结

arXiv ID: 2604.15310

1️⃣ 一句话总结

arXiv ID: 2604.15312

1️⃣ 一句话总结

arXiv ID: 2604.15173

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.17748 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18168 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18313 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18201 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14506 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15310 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15312 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15173 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.17748

arXiv ID: 2604.18168

arXiv ID: 2604.18313

arXiv ID: 2604.17720

arXiv ID: 2604.18201

arXiv ID: 2604.14506

arXiv ID: 2604.14703

arXiv ID: 2604.15310

arXiv ID: 2604.15312

arXiv ID: 2604.15173