arXiv ID:
2512.21218
潜在隐式视觉推理 / Latent Implicit Visual Reasoning
1️⃣ 一句话总结
这项研究提出了一种无需人工标注监督的方法,让大型多模态模型能够自动发现并利用视觉推理标记,从而在多种以视觉为核心的任务上实现更优的泛化性能和推理能力。
潜在隐式视觉推理 / Latent Implicit Visual Reasoning
这项研究提出了一种无需人工标注监督的方法,让大型多模态模型能够自动发现并利用视觉推理标记,从而在多种以视觉为核心的任务上实现更优的泛化性能和推理能力。
UCoder:通过内部探测大语言模型实现无监督代码生成 / UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models
这篇论文提出了一种名为IPC的无监督框架,通过探测大语言模型内部的知识和置信度模式来自我生成高质量代码,无需依赖任何外部代码数据,从而在减少对标注数据和计算资源依赖的同时,取得了与有监督方法相媲美的性能。
S2D:用于无监督视频实例分割的稀疏到稠密关键掩码蒸馏 / S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation
这篇论文提出了一种仅使用真实视频数据训练的新方法,通过识别高质量的关键帧分割掩码并利用它们来指导模型学习,从而在无需人工标注的情况下,实现了比现有方法更优的视频物体分割效果。
通过自动质量引导的自训练提升无监督视频实例分割性能 / Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training
这篇论文提出了一个名为AutoQ-VIS的无监督学习框架,它通过一个自动评估伪标签质量并引导模型自我训练的闭环系统,成功缩小了合成数据与真实视频之间的差距,在无需人工标注的情况下,显著提升了视频中物体识别与分割的准确性。
非结构化数据流形特征结构学习 / Learning Eigenstructures of Unstructured Data Manifolds
这篇论文提出了一种无需预先构建和离散化传统算子的新方法,它通过训练神经网络直接从非结构化数据中学习出类似于拉普拉斯算子的特征基,为几何处理提供了一种数据驱动的统一解决方案。
区分对待运动组件推动深度与自运动联合学习演进 / Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
这项研究提出了一种新方法,通过分别处理相机运动中的不同分量并利用几何约束,显著提升了无监督深度估计和自运动学习的准确性和鲁棒性。
无需图像编辑对学习的图像编辑模型 / Learning an Image Editing Model without Image Editing Pairs
这项研究提出了一种无需成对训练数据的新方法,通过结合视觉语言模型的反馈和分布匹配技术,直接优化扩散模型来实现高质量图像编辑,其效果媲美依赖大量监督数据的现有模型。
MI-Fuse:基于闭源大型音频语言模型的无监督领域自适应标签融合方法 / MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
本文提出了一种名为MI-Fuse的无监督领域自适应方法,通过结合闭源大型音频语言模型和源域训练的分类器,在无法访问源数据的情况下,使轻量级学生模型在目标领域的语音情感识别任务上超越了原始大型模型的表现。
请先 登录 后再提交论文