arXiv ID:
2606.29975
arXiv 提交日期: 2026-06-29
Atompack:面向重度读取的原子级机器学习训练数据集的存储与分发层 / Atompack: A Storage and Distribution Layer for Read-Heavy Atomistic ML Training Datasets
1️⃣ 一句话总结
该论文提出了一种名为Atompack的新型存储格式,它通过只追加写入、不可变索引和内存映射读取,专门优化了原子机器学习训练数据中大量分子记录的随机读取效率,比传统HDF5、LMDB等方法在训练场景下快近百倍且占用空间更小。