TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
1️⃣ 一句话总结
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。
请先 登录 后再提交论文
TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
InternVideo-Next:迈向无需视频-文本监督的通用视频基础模型 / InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
这篇论文提出了一种名为InternVideo-Next的新方法,它通过创新的两阶段训练框架,无需依赖大规模视频-文本配对数据,就能构建出能同时理解视频细节和高级语义的通用视频模型,并在多个基准测试中取得了领先性能。
OlmoEarth:面向多模态地球观测的稳定潜在图像建模 / OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
这篇论文提出了一个名为OlmoEarth的多模态时空基础模型,它通过创新的自监督学习方法在地球观测领域实现了领先性能,并部署为一个端到端平台,帮助非营利组织利用先进技术解决全球性问题。
VideoSSR:视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning
本研究提出了一种名为VideoSSR的视频自监督强化学习框架,通过设计三种无需人工标注的自监督任务来生成高质量训练数据,有效提升了多模态大语言模型在多种视频理解任务上的性能,平均提升超过5%。
使用范畴论进行文档理解、度量与操作 / Document Understanding, Measurement, and Manipulation Using Category Theory
这篇论文利用范畴论将文档表示为问答对的结构,并基于此开发了信息度量、内容摘要与扩展方法,以及一种自监督技术来改进大型预训练模型的一致性。
面向自监督单目深度估计的粗细粒度语言引导混合特征聚合方法 / Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
这项研究提出了一种结合CLIP和DINO基础模型的新方法,通过从粗到细的语言引导融合全局语义和局部空间特征,显著提升了自监督单目深度估计的精度,并能直接增强现有主流模型的性能。
DINOv3是否设定了医学视觉新标准? / Does DINOv3 Set a New Medical Vision Standard?
这项研究发现,尽管DINOv3模型仅基于自然图像训练,但在多种医学图像任务中表现出色,甚至超越了一些专用医学模型,但在需要深度领域知识的任务中存在局限,且性能不总是随模型规模增大而提升。
面向更富多样性和挑战性的点云学习预训练:基于解耦视图的自监督交叉重建 / Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
这篇论文提出了一种名为Point-PQAE的新型点云自监督学习方法,通过生成两个不同的点云视图并让它们相互重建,显著提升了预训练的难度和效果,在多个基准测试中性能优于现有方法。
M3Ret:通过自监督实现零样本多模态医学图像检索 / M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
这项研究提出了一种名为M3Ret的统一自监督学习框架,无需针对不同医学图像模态定制模型,就能在零样本条件下高效检索2D、3D和视频等多种类型的医学图像,并展现出对未见过模态的泛化能力。