arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.13479

arXiv 提交日期: 2026-04-15

medical computer vision model training semantic segmentation class imbalance attention mechanism histopathology difficulty learning

通过动态焦点注意力学习不平衡组织病理学分割中的类别难度 / Learning Class Difficulty in Imbalanced Histopathology Segmentation via Dynamic Focal Attention

1️⃣ 一句话总结

这篇论文提出了一种名为动态焦点注意力的新方法，它能让AI模型在分割不平衡的组织病理图像时，自动学习并关注那些真正难以识别的类别（而非仅仅因为出现次数少），从而在多个公开数据集上取得了更好的分割效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13383

arXiv 提交日期: 2026-04-15

computer vision model training systems image restoration lighting normalization multi-scale modeling attention mechanisms benchmark evaluation

UniBlendNet：用于环境光照归一化的统一全局、多尺度及区域自适应建模 / UniBlendNet: Unified Global, Multi-Scale, and Region-Adaptive Modeling for Ambient Lighting Normalization

1️⃣ 一句话总结

这篇论文提出了一个名为UniBlendNet的新方法，它能通过同时考虑整体光照、多尺度细节和局部区域自适应调整，更有效地修复因复杂、不均匀光照而变差的图像，使其看起来更自然和清晰。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14141

arXiv 提交日期: 2026-04-15

computer vision robotics systems 3d reconstruction simultaneous localization and mapping geometric transformer streaming video point clouds

用于流式三维重建的几何上下文变换器 / Geometric Context Transformer for Streaming 3D Reconstruction

1️⃣ 一句话总结

这篇论文提出了一个名为LingBot-Map的新型三维重建基础模型，它通过一种创新的几何上下文变换器架构，能够从视频流中实时、稳定且准确地重建三维场景，在保持高性能的同时实现约每秒20帧的处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13432

arXiv 提交日期: 2026-04-15

computer vision model training model evaluation token merging vision transformers efficient inference image synthesis video acceleration

MaMe与MaRe：基于矩阵的令牌合并与恢复，用于高效视觉感知与合成 / MaMe & MaRe: Matrix-Based Token Merging and Restoration for Efficient Visual Perception and Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为MaMe的全新、无需训练且完全基于矩阵运算的令牌合并方法，以及其逆向恢复方法MaRe，它们能高效加速视觉Transformer模型，在图像分类、视频理解和图像生成等多种任务中实现显著的速度提升，同时保持甚至提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13797

arXiv 提交日期: 2026-04-15

computer vision aigc model training font generation few-shot learning style-content disentanglement contrastive learning multi-scale fusion

DRG-Font：通过对比式风格-内容解耦实现动态参考引导的少样本字体生成 / DRG-Font: Dynamic Reference-Guided Few-shot Font Generation via Contrastive Style-Content Disentanglement

1️⃣ 一句话总结

这篇论文提出了一种名为DRG-Font的新方法，它通过智能地分离字体的风格和内容，并动态选择最佳参考样式，从而仅用少量例子就能生成风格一致且细节清晰的新字体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13589

arXiv 提交日期: 2026-04-15

computer vision multi-modal model training novel view synthesis 3d gaussian splatting image dehazing physics-informed learning multi-view consistency

先除雾后渲染：基于物理信息3D高斯泼溅的生成式除雾与无烟新视角合成 / Dehaze-then-Splat: Generative Dehazing with Physics-Informed 3D Gaussian Splatting for Smoke-Free Novel View Synthesis

1️⃣ 一句话总结

这篇论文提出了一种先对单张图片进行AI除雾、再用物理规律辅助的3D建模技术，解决了烟雾场景下多角度照片重建3D模型时画面模糊和不稳定的问题，从而能合成出清晰、一致的无烟新视角画面。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13476

arXiv 提交日期: 2026-04-15

robotics computer vision systems 360-degree perception 3d gaussian splatting novel view synthesis real-time rendering multi-sensor dataset

RobotPan：一个用于具身感知的360度全景机器人视觉系统 / RobotPan: A 360$^\circ$ Surround-View Robotic Vision System for Embodied Perception

1️⃣ 一句话总结

这篇论文提出了一个名为RobotPan的机器人视觉系统，它通过整合多个摄像头和激光雷达，实现了360度全景实时视觉感知与三维场景重建，解决了传统机器人视野狭窄和画面抖动的问题，为远程操控和自主导航等任务提供了更流畅、更全面的环境感知能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14147

arXiv 提交日期: 2026-04-15

multi-modal model enhancement computer vision segmentation retrieval-augmented generation novel entities multimodal llm benchmark

ROSE：面向检索的分割增强 / ROSE: Retrieval-Oriented Segmentation Enhancement

1️⃣ 一句话总结

这篇论文提出了一个名为ROSE的即插即用框架，通过智能检索网络上的最新图文信息，帮助现有的多模态图像分割模型识别训练数据中从未见过或需要最新知识才能准确识别的新兴物体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13789

arXiv 提交日期: 2026-04-15

computer vision robotics systems 3d object tracking long-term memory temporal consistency lidar point clouds real-time tracking

用于三维单目标跟踪的时序一致长时记忆模型 / Temporally Consistent Long-Term Memory for 3D Single Object Tracking

1️⃣ 一句话总结

这篇论文提出了一个名为ChronoTrack的新方法，通过引入一个紧凑且时序一致的长时记忆模块，有效解决了三维点云序列中目标跟踪因特征漂移和记忆开销大而难以长期稳定的问题，从而在多个标准测试集上取得了最佳性能并能实时运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13425

arXiv 提交日期: 2026-04-15

computer vision video model training video editing self-supervised learning color transfer temporal coherence zero-shot generalization

VibeFlow：通过自监督学习实现多功能视频色彩-光照编辑 / VibeFlow: Versatile Video Chroma-Lux Editing through Self-Supervised Learning

1️⃣ 一句话总结

这篇论文提出了一种名为VibeFlow的自监督学习框架，它能够巧妙地利用现有视频生成模型的知识，无需大量人工标注数据，就能高效、高质量地完成视频的重新打光、重新着色、低光增强等多种编辑任务，同时保持视频结构的稳定和播放的流畅。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.13479

1️⃣ 一句话总结

arXiv ID: 2604.13383

1️⃣ 一句话总结

arXiv ID: 2604.14141

1️⃣ 一句话总结

arXiv ID: 2604.13432

1️⃣ 一句话总结

arXiv ID: 2604.13797

1️⃣ 一句话总结

arXiv ID: 2604.13589

1️⃣ 一句话总结

arXiv ID: 2604.13476

1️⃣ 一句话总结

arXiv ID: 2604.14147

1️⃣ 一句话总结

arXiv ID: 2604.13789

1️⃣ 一句话总结

arXiv ID: 2604.13425

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.13479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13383 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14141 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13432 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13797 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13589 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14147 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13425 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.13479

arXiv ID: 2604.13383

arXiv ID: 2604.14141

arXiv ID: 2604.13432

arXiv ID: 2604.13797

arXiv ID: 2604.13589

arXiv ID: 2604.13476

arXiv ID: 2604.14147

arXiv ID: 2604.13789

arXiv ID: 2604.13425