arXiv ID:
2511.07080
Wasm:构建结构化阿拉伯语交错多模态语料库的流程 / Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
1️⃣ 一句话总结
这篇论文提出了一个名为Wasm的数据处理流程,专门用于从网络数据中构建高质量、结构完整的阿拉伯语多模态数据集,填补了该语言在保留文档结构的多模态数据资源上的空白。