arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.18744

arXiv 提交日期: 2026-04-20

computer vision machine learning event cameras feature matching zero-shot wide-baseline motion robustness

任意事件匹配：面向事件相机的零样本运动鲁棒宽基线特征匹配 / Match-Any-Events: Zero-Shot Motion-Robust Feature Matching Across Wide Baselines for Event Cameras

1️⃣ 一句话总结

本文提出首个能零样本跨数据集完成宽基线事件匹配的模型，通过设计运动鲁棒且稀疏性感知的注意力网络，并合成大规模多视角事件数据集，在未见过的场景中比现有方法提升37.7%的匹配精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18468

arXiv 提交日期: 2026-04-20

computer vision systems autonomous driving 3d asset extraction neural scene reconstruction multi-view generation sparse view reconstruction autonomous vehicle simulation

资产收割者：从自动驾驶日志中提取3D资产用于仿真 / Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation

1️⃣ 一句话总结

本文提出了一种名为Asset Harvester的端到端系统，能够从自动驾驶车辆记录的真实驾驶日志中，自动提取稀疏、不完整的物体图像，并将其转化为完整、可直接用于仿真环境的3D资产，从而解决现有神经网络场景重建无法生成可操作3D物体的核心难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21712

arXiv 提交日期: 2026-04-20

computer vision machine learning 3d human mesh recovery occlusion robust diffusion model vision transformer fusion

判别-生成协同框架：面向遮挡鲁棒的3D人体网格恢复 / Discriminative-Generative Synergy for Occlusion Robust 3D Human Mesh Recovery

1️⃣ 一句话总结

本文提出了一种模仿人脑机制的混合框架，将视觉Transformer的判别能力与扩散模型的生成能力相结合，通过特征对齐与跨层级融合，在严重遮挡下仍能准确恢复真实感十足的3D人体模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17822

arXiv 提交日期: 2026-04-20

machine learning computer vision natural language processing class-incremental learning clip task routing knowledge distillation orthogonal compensation

GR4CIL：基于CLIP的类增量学习中的间隙补偿路由 / GR4CIL: Gap-compensated Routing for CLIP-based Class Incremental Learning

1️⃣ 一句话总结

本文提出GR4CIL方法，通过保留任务专属视觉知识、维护稳定共享文本语义空间，并引入正交补偿机制来减小模态差异导致的偏差，从而在利用CLIP模型进行类增量学习时，实现更可靠的任务识别与知识路由，同时不损失零样本泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18367

arXiv 提交日期: 2026-04-20

computer vision video model training early action prediction token masking training strategy action anticipation state-of-the-art

EAST：基于令牌掩码的早期动作预测采样策略 / EAST: Early Action Prediction Sampling Strategy with Token Masking

1️⃣ 一句话总结

本文提出了一种名为EAST的简单高效框架，通过随机采样视频中的时间分割点并联合学习已观测与未来画面信息，让单个模型能在任意观测比例下提前预测动作，同时利用令牌掩码技术将显存和训练时间减半，在三项主流基准测试中大幅刷新了最佳准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17899

arXiv 提交日期: 2026-04-20

computer vision machine learning model training micro-expression recognition feature decoupling action units vision transformer emotion modeling

运动-情感特征解耦网络用于微表情识别 / MEDN: Motion-Emotion Feature Decoupling Network for Micro-Expression Recognition

1️⃣ 一句话总结

该论文提出了一种名为MEDN的双分支网络，通过将微表情中的面部运动特征和情感特征分离后融合，解决了因不同情绪共享相似动作单元而导致的识别难题，显著提升了微表情识别的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18167

arXiv 提交日期: 2026-04-20

machine learning model evaluation computer vision text-to-image bias mitigation embedding space fairness-coherence trade-off concept coherence

嵌入算术：一种用于文本到图像模型事后偏差缓解的轻量级、无需微调框架 / Embedding Arithmetic: A Lightweight, Tuning-Free Framework for Post-hoc Bias Mitigation in Text-to-Image Models

1️⃣ 一句话总结

本文提出了一种名为“嵌入算术”的轻量级方法，无需重新训练模型即可在图像生成时纠正社会偏见，通过操纵模型内部的“概念方向”来平衡生成结果的多样性，同时保持原图描述和整体风格不变，从而解决了公平性与视觉连贯性之间的权衡难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18781

arXiv 提交日期: 2026-04-20

medical machine learning computer vision super-resolution mri hallucination-robust physics-informed mixture of experts

CAHAL：面向低分辨率MRI扫描的临床适用性分辨率增强方法 / CAHAL: Clinically Applicable resolution enHAncement for Low-resolution MRI scans

1️⃣ 一句话总结

本文提出了一种名为CAHAL的MRI超分辨率方法，通过结合物理退化模拟、混合专家网络和多种约束损失，在提升低分辨率脑部MRI图像分辨率的同时，有效避免了传统生成式方法常见的解剖假象和体积测量偏差，确保了临床定量分析的准确性和安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18790

arXiv 提交日期: 2026-04-20

computer vision model training depth completion multi-modal fusion real-time sparse lidar lightweight

高效穿透网络：通过轻量级多模态融合实现稀疏激光雷达的实时深度补全 / EfficientPENet: Real-Time Depth Completion from Sparse LiDAR via Lightweight Multi-Modal Fusion

1️⃣ 一句话总结

本文提出了一种轻量级深度补全网络EfficientPENet，通过融合稀疏激光雷达数据和RGB图像，在保持高精度的同时，大幅降低参数量和计算延迟，实现了在资源受限的边缘设备（如NVIDIA Jetson）上的实时运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18583

arXiv 提交日期: 2026-04-20

computer vision systems model training animatable avatars digital humans real-time rendering model distillation mobile graphics

MUA：移动端超精细可驱动数字人 / MUA: Mobile Ultra-detailed Animatable Avatars

1️⃣ 一句话总结

这篇论文提出了一种新的可驱动数字人技术，它通过一种创新的压缩和知识蒸馏方法，将原本只能在高端服务器上运行的超精细数字人模型，大幅压缩后成功部署到手机或VR头显等移动设备上，并能以实时帧率运行，同时保持了逼真的动态细节和外观。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.18744

1️⃣ 一句话总结

arXiv ID: 2604.18468

1️⃣ 一句话总结

arXiv ID: 2604.21712

1️⃣ 一句话总结

arXiv ID: 2604.17822

1️⃣ 一句话总结

arXiv ID: 2604.18367

1️⃣ 一句话总结

arXiv ID: 2604.17899

1️⃣ 一句话总结

arXiv ID: 2604.18167

1️⃣ 一句话总结

arXiv ID: 2604.18781

1️⃣ 一句话总结

arXiv ID: 2604.18790

1️⃣ 一句话总结

arXiv ID: 2604.18583

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.18744 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21712 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17822 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18367 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18167 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18790 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18583 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.18744

arXiv ID: 2604.18468

arXiv ID: 2604.21712

arXiv ID: 2604.17822

arXiv ID: 2604.18367

arXiv ID: 2604.17899

arXiv ID: 2604.18167

arXiv ID: 2604.18781

arXiv ID: 2604.18790

arXiv ID: 2604.18583