arXiv ID:
2603.18003
arXiv 提交日期: 2026-03-18
通过可微分渲染与多模态大语言模型实现通用骨架理解 / Universal Skeleton Understanding via Differentiable Rendering and MLLMs
1️⃣ 一句话总结
这篇论文提出了一种名为SkeletonLLM的新方法,它通过一个可微分的通用渲染器将各种骨架动作数据转换成图像序列,让原本只能处理图像和文本的多模态大模型能够直接理解和推理人体动作,从而在识别、描述和跨格式迁移等多种任务上表现出强大的通用能力。