arXiv ID:
2602.09523
Singpath-VL技术报告 / Singpath-VL Technical Report
1️⃣ 一句话总结
这篇论文提出了一个专门用于宫颈细胞病理学分析的AI助手Singpath-VL,它通过创新的方法生成大规模合成数据集来训练模型,从而在细胞形态识别和诊断分类任务上表现出色。
Singpath-VL技术报告 / Singpath-VL Technical Report
这篇论文提出了一个专门用于宫颈细胞病理学分析的AI助手Singpath-VL,它通过创新的方法生成大规模合成数据集来训练模型,从而在细胞形态识别和诊断分类任务上表现出色。
ArtisanGS:结合人工智能与人机交互的高斯溅射选择交互式工具集 / ArtisanGS: Interactive Tools for Gaussian Splat Selection with AI and Human in the Loop
这篇论文提出了一套名为ArtisanGS的交互式工具,它结合了AI自动选择和人工精细调整,让用户能够轻松地从复杂的三维高斯溅射场景中分割和编辑特定物体,从而支持更灵活的下游应用。
MEVER:基于图证据检索的多模态可解释声明验证 / MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval
这篇论文提出了一种名为MEVER的新模型,它能够同时从文本和图像中检索证据、验证声明的真伪,并生成解释性的文字说明,从而让AI的验证过程更准确、更透明,特别是在处理科学图表等复杂信息时效果显著。
探索基于视觉-语言表征的谱聚类 / Delving into Spectral Clustering with Vision-Language Representations
这篇论文提出了一种利用预训练视觉-语言模型进行多模态谱聚类的新方法,通过结合图像的视觉相似性和语义重叠来提升聚类效果,在多个基准测试中大幅超越了现有技术。
Kelix技术报告 / Kelix Technique Report
这篇论文提出了一个名为Kelix的模型,它通过一种全新的离散视觉编码方法,成功统一了多模态数据的理解和生成能力,解决了以往视觉语言模型中离散表示理解能力不足的问题。
AGMark:面向大型视觉语言模型的注意力引导动态水印技术 / AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models
本文提出了一种名为AGMark的新型水印框架,它能够根据图像内容和生成过程的动态变化,智能地选择关键位置嵌入水印,从而在有效保护模型知识产权的同时,显著提升生成文本的质量和与图像的语义关联度。
Stroke3D:通过潜在扩散模型将2D笔划提升为可装配的3D模型 / Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
这篇论文提出了一个名为Stroke3D的新框架,它能让用户通过简单的2D草图描述和文字提示,直接生成带有骨骼、可以立即用于动画制作的3D模型,大大简化了3D内容创作的流程。
一种用于评估患者伤口愈合情况的深度多模态方法 / A Deep Multi-Modal Method for Patient Wound Healing Assessment
这篇论文提出了一种结合伤口图像和临床变量的深度多模态模型,旨在预测患者的伤口恶化风险及住院可能性,以帮助医生早期发现复杂情况并减少诊断时间。
行动预测具身推理的自监督引导方法 / Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning
这项研究提出了一种名为R&B-EnCoRe的新方法,让AI模型能够通过自我监督的方式,自动从海量网络知识中提炼出对具体物理任务(如机械臂操作、机器人导航)最有效的推理策略,从而显著提升任务执行的成功率,无需依赖人工标注或固定模板。
基于去噪扩散模型的多模态图像重建与合成的统一框架 / A Unified Framework for Multimodal Image Reconstruction and Synthesis using Denoising Diffusion Models
这篇论文提出了一个名为Any2all的统一框架,它利用单个去噪扩散模型,通过将其视为一个虚拟的‘图像修复’问题,成功解决了多种多模态图像重建与合成任务,避免了为每个任务单独训练模型的繁琐,并在实验中取得了优异且感知质量更好的结果。
请先 登录 后再提交论文