arXiv ID:
2604.12803
事件流中的生成式匿名化 / Generative Anonymization in Event Streams
1️⃣ 一句话总结
这篇论文提出了一种新方法,能在保护使用神经形态视觉传感器拍摄的人脸身份隐私的同时,保持视频数据的可用性,解决了隐私保护与数据效用之间的核心矛盾。
事件流中的生成式匿名化 / Generative Anonymization in Event Streams
这篇论文提出了一种新方法,能在保护使用神经形态视觉传感器拍摄的人脸身份隐私的同时,保持视频数据的可用性,解决了隐私保护与数据效用之间的核心矛盾。
IAD-Unify:一个用于工业异常分割、理解与生成的区域接地统一模型 / IAD-Unify: A Region-Grounded Unified Model for Industrial Anomaly Segmentation, Understanding, and Generation
这篇论文提出了一个名为IAD-Unify的统一模型,它能够同时完成工业缺陷的定位分割、用自然语言解释缺陷原因,以及根据指令生成逼真的缺陷图像,并通过一个大型数据集验证了其有效性。
用于场所分类的多模态全景3D户外数据集 / Multi-modal panoramic 3D outdoor datasets for place categorization
这篇论文创建并公开了两个多模态全景3D户外数据集,分别包含密集和稀疏的点云数据,用于对森林、海岸、住宅区等六类场所进行自动分类,并展示了在这些数据集上最高可达96.42%和89.67%的分类准确率。
脆弱的重建:基于重建的扩散生成图像检测器面临对抗性攻击的脆弱性 / Fragile Reconstruction: Adversarial Vulnerability of Reconstruction-Based Detectors for Diffusion-Generated Images
这篇论文发现,当前流行的基于重建的AI生成图像检测器存在严重的安全漏洞,即使对图像添加人眼难以察觉的微小扰动,也能让检测器的准确率几乎降为零,并且这种攻击在不同检测器之间可以通用,现有防御方法效果有限,揭示了该类检测策略的根本性安全缺陷。
GeoAlign:用于多模态大语言模型空间推理的几何特征重对齐 / GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning
这篇论文提出了一个名为GeoAlign的新框架,通过动态聚合3D模型的多层几何特征并与视觉内容对齐,有效解决了现有多模态大模型在空间推理任务上的不足,使小型模型也能达到顶尖性能。
基于物理原理的单目车辆距离估计:利用标准化车牌字体 / Physics-Grounded Monocular Vehicle Distance Estimation Using Standardized License Plate Typography
这篇论文提出了一种利用美国车牌上标准字体作为被动参考标记,通过几何原理直接估算车辆距离的新方法,无需训练数据,成本低廉且精度高,为自动驾驶系统提供了一种可靠的测距方案。
DINO-探索者:通过自我运动补偿的语义预测编码实现主动式水下发现 / DINO-Explorer: Active Underwater Discovery via Ego-Motion Compensated Semantic Predictive Coding
这篇论文提出了一种名为DINO-Explorer的新型水下机器人感知框架,它能够主动识别并优先传输水下环境中具有科学价值的突发新奇事件,同时有效过滤掉机器人自身运动造成的视觉干扰,从而显著提升了水下监测的效率和带宽利用率。
一个用于复杂4D无标记人体运动捕捉的数据集与评估 / A Dataset and Evaluation for Complex 4D Markerless Human Motion Capture
这篇论文创建了一个包含复杂真实场景(如多人互动、严重遮挡)的4D无标记人体运动捕捉数据集,并通过评估发现现有先进模型在这些场景下性能显著下降,证明了该数据集对推动技术发展的价值。
高斯场中的抓握:快速单目重建动态手物交互 / Grasp in Gaussians: Fast Monocular Reconstruction of Dynamic Hand-Object Interactions
这篇论文提出了一种名为GraG的新方法,它能够仅用一部普通手机拍摄的视频,就快速、稳定地重建出人手与物体在三维空间中的动态交互过程,其核心是使用了一种轻量化的‘高斯和’表示法来高效追踪运动,速度比之前的方法快6倍以上,同时精度也更高。
解锁Grounding DINO在视频中的潜力:面向有限数据的时空定位的参数高效适应方法 / Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization
这篇论文提出了一种名为ST-GD的数据高效框架,它通过冻结预训练好的2D视觉语言模型并仅添加少量可训练参数,成功地将模型适应到视频时空定位任务中,从而在数据稀缺的情况下也能取得优异的性能。
请先 登录 后再提交论文