arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.12281

arXiv 提交日期: 2026-04-14

computer vision model training multi-modal style transfer diffusion models attention mechanism training-free image generation

MAST：基于掩码引导注意力质量分配的免训练多风格迁移方法 / MAST: Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer

1️⃣ 一句话总结

这篇论文提出了一种名为MAST的免训练新方法，它通过精确控制扩散模型中的注意力分配，成功解决了多风格图像合成中常见的边界瑕疵和结构失真问题，实现了高质量、无干扰的多风格融合。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12575

arXiv 提交日期: 2026-04-14

computer vision model training aigc single-image generation diffusion models spatial controllability 3d positional encoding structure preservation

StructDiff：一种用于单图像生成的结构保持与空间可控扩散模型 / StructDiff: A Structure-Preserving and Spatially Controllable Diffusion Model for Single-Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为StructDiff的新方法，它能让AI仅凭一张参考图片就生成大量结构相似、布局可控的新图片，并且首次实现了对生成物体位置、大小等细节的灵活操控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12307

arXiv 提交日期: 2026-04-14

aigc computer vision model training ai-generated image detection robustness lora pairwise training distortion simulation

基于LoRA配对训练增强鲁棒的AI生成图像检测 / Boosting Robust AIGI Detection with LoRA-based Pairwise Training

1️⃣ 一句话总结

这篇论文提出了一种名为LPT的新训练策略，通过模拟真实世界中的图像失真和独特的配对训练方法，显著提升了AI生成图像检测器在复杂、失真环境下的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13036

arXiv 提交日期: 2026-04-14

computer vision video generation aigc 3d scene generation video-to-3d long-horizon generation autoregressive synthesis generative reconstruction

Lyra 2.0：可探索的生成式3D世界 / Lyra 2.0: Explorable Generative 3D Worlds

1️⃣ 一句话总结

这篇论文提出了一个名为Lyra 2.0的新框架，它通过改进长视频生成技术来创建大规模、持久且可探索的高质量3D虚拟世界，解决了现有方法在生成过程中容易‘忘记’已生成区域和画面质量随时间‘漂移’变差的两大难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12551

arXiv 提交日期: 2026-04-14

computer vision multi-modal model training 3d scene understanding vision-language models multiview fusion self-supervised learning semantic segmentation

基于交叉注意力的多视角视觉-语言嵌入融合 / Cross-Attentive Multiview Fusion of Vision-Language Embeddings

1️⃣ 一句话总结

这篇论文提出了一种名为CAMFusion的新方法，它通过一个多视角交叉注意力变换器，智能地融合来自不同角度的视觉和语言信息，从而为3D物体生成更优的语义表示，并在多个3D场景理解任务中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12626

arXiv 提交日期: 2026-04-14

robotics agents computer vision 3d gaussian splatting embodied ai navigation simulator dynamic avatars cross-domain generalization

Habitat-GS：一个采用动态高斯溅射的高保真导航模拟器 / Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

1️⃣ 一句话总结

这篇论文提出了一个名为Habitat-GS的新型模拟器，它通过结合高画质的3D高斯溅射渲染和可驱动的动态高斯数字人，来训练能在真实、人多的环境中更好地进行导航的AI智能体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12411

arXiv 提交日期: 2026-04-14

medical computer vision model evaluation medical image segmentation human-ai collaboration learning to defer trustworthy ai multi-expert system

DeferredSeg：一种用于可信医学图像分割的多专家延迟决策框架 / DeferredSeg: A Multi-Expert Deferral Framework for Trustworthy Medical Image Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为DeferredSeg的新框架，它通过一个智能路由系统，让AI在医学图像分割中遇到不确定区域时，能够自动将判断任务交给人类专家，从而显著提升了分割结果的可靠性和临床实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11689

arXiv 提交日期: 2026-04-13

robotics computer vision multi-modal vision-language-action latent action representation benchmark visual foundation models embodied ai

LARY：一种用于可泛化视觉-动作对齐基准的潜在动作表征 / LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

1️⃣ 一句话总结

这篇论文提出了一个名为LARY的基准测试，通过大规模实验发现，未经动作监督训练的通用视觉模型在将视频理解转化为机器人控制动作方面，比专门为机器人设计的模型表现更好，并且语义层面的抽象表征比像素级信息更能有效连接视觉与动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11098

arXiv 提交日期: 2026-04-13

systems model training computer vision wireless communication 3d reconstruction end-to-end learning gaussian splatting aerial imaging

面向航空图像传输与大规模场景重建的高效收发器设计 / Efficient Transceiver Design for Aerial Image Transmission and Large-scale Scene Reconstruction

1️⃣ 一句话总结

这篇论文提出了一种将3D场景重建技术直接融入通信系统训练的新方法，通过联合优化收发器，在显著降低传输开销的同时，保证了无人机网络下高质量图像传输和精准三维场景重建的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11998

arXiv 提交日期: 2026-04-13

computer vision benchmark model evaluation object detection few-shot learning cross-domain challenge ntire

NTIRE 2026第二届跨领域小样本目标检测挑战赛：方法与结果 / The Second Challenge on Cross-Domain Few-Shot Object Detection at NTIRE 2026: Methods and Results

1️⃣ 一句话总结

这篇论文介绍了NTIRE 2026举办的第二届跨领域小样本目标检测挑战赛，该赛事旨在推动在标注数据极少的情况下，让模型能够识别全新领域中的物体，并总结了参赛团队提出的创新方法及最终比赛结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.12281

1️⃣ 一句话总结

arXiv ID: 2604.12575

1️⃣ 一句话总结

arXiv ID: 2604.12307

1️⃣ 一句话总结

arXiv ID: 2604.13036

1️⃣ 一句话总结

arXiv ID: 2604.12551

1️⃣ 一句话总结

arXiv ID: 2604.12626

1️⃣ 一句话总结

arXiv ID: 2604.12411

1️⃣ 一句话总结

arXiv ID: 2604.11689

1️⃣ 一句话总结

arXiv ID: 2604.11098

1️⃣ 一句话总结

arXiv ID: 2604.11998

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.12281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12575 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12307 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12626 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12411 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11098 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11998 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.12281

arXiv ID: 2604.12575

arXiv ID: 2604.12307

arXiv ID: 2604.13036

arXiv ID: 2604.12551

arXiv ID: 2604.12626

arXiv ID: 2604.12411

arXiv ID: 2604.11689

arXiv ID: 2604.11098

arXiv ID: 2604.11998