← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

中英文论文题目：
MeshLLM: Leveraging Large Language Models for 3D Mesh Generation and Understanding
MeshLLM：基于大语言模型的3D网格生成与理解

1️⃣ 一句话总结

MeshLLM提出了一种通过大型语言模型（LLMs）处理文本序列化3D网格的通用框架，创新性地采用Primitive-Mesh分解策略和渐进式训练方法，解决了现有方法在数据规模、结构信息保留和多任务兼容性上的局限性，实现了高质量的网格生成、理解与自然语言交互的统一。

2️⃣ 论文创新点

1. Primitive-Mesh分解策略

创新点：将复杂3D网格分解为局部子单元（Primitive-Mesh），通过KNN聚类和语义分割生成两类基元（几何高效型/语义精确型），构建1500k+样本的大规模数据集（比现有方法扩展50倍）。
改进：传统方法直接处理完整网格导致数据稀缺和结构信息丢失，而分解策略保留空间拓扑关系并适配LLM输入长度限制。
意义：为LLMs学习3D结构提供可扩展且语义丰富的数据基础。

2. 结构化训练任务设计

创新点：提出顶点-面预测（学习拓扑连接性）和局部网格组装（学习全局结构关联）任务，结合渐进式训练（预训练→微调）。
改进：相比LLaMA-Mesh等仅关注生成或理解的单一任务，MeshLLM通过多任务联合优化统一建模能力。
意义：增强LLMs对3D几何和语义的细粒度理解，支持生成与理解的双向任务。

3. 文本序列化优化与多任务兼容性

创新点：设计OBJ格式量化、坐标排序和面索引标准化方法，将网格转换为紧凑文本序列，无需修改LLM的tokenizer。
改进：传统方法依赖专用编码器（如PolyGen），而MeshLLM直接复用LLM的文本处理能力，保留对话功能。
意义：实现自然语言指令到3D网格的端到端生成，支持多轮交互。

4. 混合数据与防遗忘训练

创新点：结合KNN基元（高效）和语义基元（高质）构建互补数据集，并在微调中随机采样历史对话数据防止能力退化。
改进：单一数据源（如MeshXL）难以兼顾规模与语义，而混合策略平衡效率与精度。
意义：提升模型泛化性，同时维持LLM的通用语言能力。

3️⃣ 主要结果与价值

实验结果亮点

生成质量：在Objaverse-XL和ShapeNet上，MeshLLM的MMD（↓12.3%）、COV（↑18.7%）等指标优于LLaMA-Mesh，与专用方法（MeshXL）相当。
理解能力：文本描述任务的BLEU-1（↑22.5%）和CLIP相似性（↑15.8%）显著提升，归因于语义基元的细粒度嵌入。
效率：KNN基元生成仅需0.2秒/网格，支持大规模预训练。

实际应用价值

跨模态3D创作：通过自然语言指令生成和编辑3D模型，降低专业工具门槛。
工业与游戏设计：快速原型生成和自动化网格修复，提升工作流效率。
机器人视觉：增强LLMs对物理世界的3D推理能力，促进具身智能发展。

4️⃣ 术语表

MeshLLM：基于LLM的3D网格生成与理解框架，支持文本到网格的端到端转换。
Primitive-Mesh：通过KNN聚类或语义分割得到的局部网格子单元，用于适配LLM输入。
OBJ量化：将顶点坐标映射到[0,64]整数并排序，生成唯一文本序列。
顶点-面预测：从顶点坐标推断面连接关系的训练任务，强化拓扑推理。
SFT (Supervised Fine-Tuning)：监督微调阶段，对齐LLM与下游3D任务。
MMD/COV：评估生成网格质量的指标（最小匹配距离/覆盖率）。

（总结基于7个chunk-summary的整合，去重合并冗余信息，突出核心贡献与跨领域价值。）

📄 打开原文 PDF