📄 论文总结
- 中英文论文题目:
MeshLLM: Leveraging Large Language Models for 3D Mesh Generation and Understanding
MeshLLM:基于大语言模型的3D网格生成与理解
1️⃣ 一句话总结
MeshLLM提出了一种通过大型语言模型(LLMs)处理文本序列化3D网格的通用框架,创新性地采用Primitive-Mesh分解策略和渐进式训练方法,解决了现有方法在数据规模、结构信息保留和多任务兼容性上的局限性,实现了高质量的网格生成、理解与自然语言交互的统一。
2️⃣ 论文创新点
1. Primitive-Mesh分解策略
- 创新点:将复杂3D网格分解为局部子单元(Primitive-Mesh),通过KNN聚类和语义分割生成两类基元(几何高效型/语义精确型),构建1500k+样本的大规模数据集(比现有方法扩展50倍)。
- 改进:传统方法直接处理完整网格导致数据稀缺和结构信息丢失,而分解策略保留空间拓扑关系并适配LLM输入长度限制。
- 意义:为LLMs学习3D结构提供可扩展且语义丰富的数据基础。
2. 结构化训练任务设计
- 创新点:提出顶点-面预测(学习拓扑连接性)和局部网格组装(学习全局结构关联)任务,结合渐进式训练(预训练→微调)。
- 改进:相比LLaMA-Mesh等仅关注生成或理解的单一任务,MeshLLM通过多任务联合优化统一建模能力。
- 意义:增强LLMs对3D几何和语义的细粒度理解,支持生成与理解的双向任务。
3. 文本序列化优化与多任务兼容性
- 创新点:设计OBJ格式量化、坐标排序和面索引标准化方法,将网格转换为紧凑文本序列,无需修改LLM的tokenizer。
- 改进:传统方法依赖专用编码器(如PolyGen),而MeshLLM直接复用LLM的文本处理能力,保留对话功能。
- 意义:实现自然语言指令到3D网格的端到端生成,支持多轮交互。
4. 混合数据与防遗忘训练
- 创新点:结合KNN基元(高效)和语义基元(高质)构建互补数据集,并在微调中随机采样历史对话数据防止能力退化。
- 改进:单一数据源(如MeshXL)难以兼顾规模与语义,而混合策略平衡效率与精度。
- 意义:提升模型泛化性,同时维持LLM的通用语言能力。
3️⃣ 主要结果与价值
实验结果亮点
- 生成质量:在Objaverse-XL和ShapeNet上,MeshLLM的MMD(↓12.3%)、COV(↑18.7%)等指标优于LLaMA-Mesh,与专用方法(MeshXL)相当。
- 理解能力:文本描述任务的BLEU-1(↑22.5%)和CLIP相似性(↑15.8%)显著提升,归因于语义基元的细粒度嵌入。
- 效率:KNN基元生成仅需0.2秒/网格,支持大规模预训练。
实际应用价值
- 跨模态3D创作:通过自然语言指令生成和编辑3D模型,降低专业工具门槛。
- 工业与游戏设计:快速原型生成和自动化网格修复,提升工作流效率。
- 机器人视觉:增强LLMs对物理世界的3D推理能力,促进具身智能发展。
4️⃣ 术语表
- MeshLLM:基于LLM的3D网格生成与理解框架,支持文本到网格的端到端转换。
- Primitive-Mesh:通过KNN聚类或语义分割得到的局部网格子单元,用于适配LLM输入。
- OBJ量化:将顶点坐标映射到[0,64]整数并排序,生成唯一文本序列。
- 顶点-面预测:从顶点坐标推断面连接关系的训练任务,强化拓扑推理。
- SFT (Supervised Fine-Tuning):监督微调阶段,对齐LLM与下游3D任务。
- MMD/COV:评估生成网格质量的指标(最小匹配距离/覆盖率)。
(总结基于7个chunk-summary的整合,去重合并冗余信息,突出核心贡献与跨领域价值。)