arXiv ID:
2605.19394
arXiv 提交日期: 2026-05-19
EmbGen:利用重组语料库进行教学 / EmbGen: Teaching with Reassembled Corpora
1️⃣ 一句话总结
本文提出了一种名为EmbGen的新方法,通过将领域文本拆解成实体与描述,再基于语义相似度重新组合这些片段,从而自动生成高质量、多样化的问答训练数据,帮助小型AI模型更高效地学习专业领域的知识,尤其适用于内容复杂多样的场景。