arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2508.03560

🤖 系统

08-27 14:38

systems

web design to code layout-as-thought mllm dynamic assembly cc-hard benchmark

📄 论文总结

中英文论文题目：
LaTCoder: Layout-as-Thought for Accurate and Robust Web Design to Code Generation
LaTCoder：基于“布局即思维”的精准鲁棒网页设计转代码生成方法

1️⃣ 一句话总结

LaTCoder提出了一种创新的Layout-as-Thought (LaT)方法，通过分块处理网页设计图、独立生成代码块并动态组装，显著提升了多模态大语言模型（MLLMs）在网页设计转代码任务中的布局保留能力，并在新构建的复杂基准CC-HARD上验证了其优越性。

2️⃣ 论文创新点

1. Layout-as-Thought (LaT) 推理框架

创新点：将网页设计分解为独立图像块（BBoxes），模仿人类思维链（CoT）逐步生成代码，避免传统整体生成导致的布局丢失问题。
改进：相比直接端到端生成（如Design2Code），LaT通过分块降低MLLMs生成长代码的负担，并显式保留布局信息。
意义：首次将CoT思想扩展到多模态布局理解任务，为复杂视觉-代码转换提供新范式。

2. 动态双组装策略

创新点：结合绝对定位组装（APS，高精度）和MLLM-based组装（MS，美观性），通过验证器动态选择最优输出。
改进：传统方法仅依赖单一策略（如纯MLLM生成），LaTCoder通过混合策略平衡布局准确性与代码可读性。
意义：提升模型对不同复杂度设计的适应性，实际部署时可针对需求灵活调整。

3. CC-HARD评测基准

创新点：从Common Crawl构建包含复杂布局（如深层DOM树、多样化标签）的挑战性数据集。
改进：现有数据集（如Web2Code）偏简单，CC-HARD通过手动筛选更贴近真实场景。
意义：推动MLLMs在网页生成任务中的鲁棒性研究，弥补评估盲区。

4. 轻量级布局感知分割算法

创新点：针对CSS盒模型特性优化分割线检测（如固定间隔采样、忽略边缘像素），优先保持文本区域完整性。
改进：比传统图像分割方法（如OCR-based）更高效且适配网页结构特性。
意义：为分块生成提供可靠基础，算法耗时仅占流程的3%。

3️⃣ 主要结果与价值

实验结果亮点

指标提升：在CC-HARD数据集上，LaTCoder使DeepSeek-VL2-tiny的MAE降低42.36%，TreeBLEU提升21.8%。
策略对比：绝对定位组装（APS）在布局准确性（MAE）上最优，而MLLM-based组装（MS）在视觉评分（CLIP）更佳。
人类评估：79.7%的案例中，LaTCoder生成结果被标注者认为优于基线。

实际应用价值

前端开发加速：可集成至Figma/Adobe XD等设计工具，自动化生成高保真代码原型。
模型能力增强：为MLLMs处理长代码生成任务提供分治策略参考（如UI合成、数据可视化）。
评测标准革新：CC-HARD推动社区关注复杂布局场景，促进模型实用化。

4️⃣ 术语表

LaTCoder：论文核心方法，基于Layout-as-Thought的网页设计转代码框架。
LaT (Layout-as-Thought)：分块处理布局的推理范式，类比思维链（CoT）。
CC-HARD：新构建的复杂网页布局评测数据集，源自Common Crawl。
APS/MS：绝对定位组装（Absolute Positioning Assembly）与MLLM-based组装策略。
Verify Score：复合验证指标，结合MAE（布局误差）和CLIP（视觉相似性）。
TreeBLEU：基于DOM树结构相似性的代码评估指标。
BBox：边界框（Bounding Box），记录分块坐标信息。

✅ 总结特点：
1. 突出LaT思想与分块动态组装的协同创新；
2. 量化结果与人类评估结合，验证实用性；
3. 术语表精简，避免冗余（如省略重复的MLLMs解释）。

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2508.03560

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. Layout-as-Thought (LaT) 推理框架

2. 动态双组装策略

3. CC-HARD评测基准

4. 轻量级布局感知分割算法

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2508.03560 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. Layout-as-Thought (LaT) 推理框架

2. 动态双组装策略

3. CC-HARD评测基准

4. 轻量级布局感知分割算法

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2508.03560