arXiv最新AI论文速览速学

🔍

computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2604.26238

arXiv 提交日期: 2026-04-29

computer vision multi-modal 3d gaussian splatting geometric priors scene reconstruction outdoor reconstruction energy field

基于能量场的3D高斯泼溅方法：利用部分几何先验信息 / EnerGS: Energy-Based Gaussian Splatting with Partial Geometric Priors

1️⃣ 一句话总结

针对户外大场景重建中激光雷达等几何先验信息稀疏、不完整的问题，本文提出了一种名为EnerGS的新方法，将部分可观测的几何信息建模为一个连续的能量场，以“软引导”而非强制约束的方式优化3D高斯点，从而在稀疏视角和单目设置下均能提升重建的视觉质量和几何稳定性，并有效防止过拟合。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26409

arXiv 提交日期: 2026-04-29

computer vision machine learning ood detection sparse autoencoders vision transformers feature disentanglement interpretability

稀疏性作为关键：从潜在结构中挖掘新洞察用于分布外检测 / Sparsity as a Key: Unlocking New Insights from Latent Structures for Out-of-Distribution Detection

1️⃣ 一句话总结

本文首次将稀疏自编码器应用于视觉Transformer的[CLS]特征，通过解耦稠密表示为结构化的潜在空间，发现分布内数据具有类别稳定的激活模式，并据此提出一种基于能量分布偏差的评分方法，显著提升了图像分布外检测的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25545

arXiv 提交日期: 2026-04-28

medical computer vision model training state-space models medical image segmentation topology-aware scanning feature fusion efficiency

TopoMamba：面向异构医学视觉媒体的拓扑感知扫描与融合分割框架 / TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media

1️⃣ 一句话总结

本文提出TopoMamba框架，通过引入对角/反对角拓扑扫描来捕捉倾斜和弯曲结构，并用轻量级依赖感知门控机制融合多分支特征，从而在CT、皮肤镜和内窥镜等多样医学影像分割中显著提升了对薄细目标（如胰腺、胆囊）的识别精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25322

arXiv 提交日期: 2026-04-28

medical computer vision temporomandibular joint occlusal splint 3d imaging motion analysis biomechanics

咬合定位牙合垫对颞下颌关节状况的定量影响评估 / Assessment of the quantitative impact of occlusal positioning splints on temporomandibular joint conditions

1️⃣ 一句话总结

本文提出了一种基于三维数据融合和刚体变换分析的计算方法，通过使用咬合定位牙合垫模拟下颌位置变化，无需反复成像就能定量评估颞下颌关节间隙的改变，为牙合垫对关节影响的机制研究提供了工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25164

arXiv 提交日期: 2026-04-28

computer vision multi-modal aigc motion generation body shape identity-aware human motion text-driven

身份感知的人体运动与身形联合生成 / IAM: Identity-Aware Human Motion and Shape Joint Generation

1️⃣ 一句话总结

本文提出了一种能同时生成人体运动与体型的AI模型，通过分析人的语言描述或视觉线索来识别其身体特征（如胖瘦、年龄），从而让生成的走路、跑步等动作看起来更符合该人物的真实体型和运动风格。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25300

arXiv 提交日期: 2026-04-28

computer vision systems edge computing tiny object selection algorithm-system co-design budgeted perception edge deployment patch prioritization

DenseScout：面向边缘平台预算受限微小目标选择的算法-系统协同设计 / DenseScout: Algorithm-System Co-design for Budgeted Tiny Object Selection on Edge Platforms

1️⃣ 一句话总结

本文提出一种名为DenseScout的轻量级算法-系统协同设计方案，通过仅1.01M参数的密集响应选择器直接在高分辨率图像中高效排序候选区域，并整合传输感知的运行时调度和截止时间约束的召回率评估，从而在边缘平台上以极低计算预算准确筛选微小目标，显著优于传统检测器前端方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25367

arXiv 提交日期: 2026-04-28

computer vision machine learning low-light enhancement unsupervised learning lightweight model retinex theory image denoising

Self-DACE++：通过高效自适应曲线估计实现稳健的低光照增强 / Self-DACE++: Robust Low-Light Enhancement via Efficient Adaptive Curve Estimation

1️⃣ 一句话总结

本文提出了一种名为Self-DACE++的轻量级无监督低光照图像增强方法，通过改进的自适应曲线和去噪模块，在保持色彩和细节的同时大幅减少计算量，实现了比现有方法更优的增强效果和实时处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25316

arXiv 提交日期: 2026-04-28

computer vision machine learning domain adaptation weed detection drone imagery rumex classification vision transformer

面向无人机图像的鲁棒深度学习阔叶酸模检测方法 / Towards Robust Deep Learning-based Rumex Obtusifolius Detection from Drone Images

1️⃣ 一句话总结

本文研究了将地面车辆训练的深度学习模型迁移至无人机图像进行杂草检测的难题，发现传统卷积神经网络（如ResNet）在跨场景时表现不佳，而采用域自适应技术或自监督预训练的视觉Transformer（如DINOv2）能显著提升鲁棒性，并在新发布的瑞士草地无人机数据集上达到了F1=0.8的高分类性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25178

arXiv 提交日期: 2026-04-28

systems machine learning computer vision rendering optimization xgboost lookup tables real-time mobile devices

基于XGBoost驱动的查找表实现的轻量级实时渲染参数优化 / Lightweight Real-Time Rendering Parameter Optimization via XGBoost-Driven Lookup Tables

1️⃣ 一句话总结

针对移动设备等资源受限环境下的实时渲染，本文提出了一种轻量级框架LUT-Opt，通过训练XGBoost模型预测渲染时间和画质，将其转化为高效查找表，从而在每帧亚毫秒内自动调整渲染参数，在几乎不损失画质（仅增约2%误差）的前提下，显著减少次表面散射（约40%）和环境光遮蔽（约70%）的渲染耗时。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25388

arXiv 提交日期: 2026-04-28

robotics computer vision multi-modal visual localization floor plan prior cross-modal matching fisheye camera descriptor

COMPASS：基于楼层平面的紧凑多通道先验地图与场景特征用于视觉定位 / COMPASS: COmpact Multi-channel Prior-map And Scene Signature for Floor-Plan-Based Visual Localization

1️⃣ 一句话总结

本文提出COMPASS算法，通过从建筑楼层平面图提取几何与语义信息（如墙壁、窗户、开口），并利用鱼眼相机图像检测类似结构，构建一种多通道环形描述子，从而实现跨模态的视觉定位，验证了从平面图到真实图像的结构匹配可行性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.26238

1️⃣ 一句话总结

arXiv ID: 2604.26409

1️⃣ 一句话总结

arXiv ID: 2604.25545

1️⃣ 一句话总结

arXiv ID: 2604.25322

1️⃣ 一句话总结

arXiv ID: 2604.25164

1️⃣ 一句话总结

arXiv ID: 2604.25300

1️⃣ 一句话总结

arXiv ID: 2604.25367

1️⃣ 一句话总结

arXiv ID: 2604.25316

1️⃣ 一句话总结

arXiv ID: 2604.25178

1️⃣ 一句话总结

arXiv ID: 2604.25388

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.26238 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26409 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25545 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25322 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25164 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25300 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25367 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25316 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25178 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25388 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.26238

arXiv ID: 2604.26409

arXiv ID: 2604.25545

arXiv ID: 2604.25322

arXiv ID: 2604.25164

arXiv ID: 2604.25300

arXiv ID: 2604.25367

arXiv ID: 2604.25316

arXiv ID: 2604.25178

arXiv ID: 2604.25388