← 返回列表

菜单

🤖 系统
📄 Abstract - KORMo-10B: A Fully Open Bilingual Korean-English Large Language Model Driven by Synthetic Data
正在获取摘要...
顶级标签: llm
详细标签: synthetic data multilingual llm low-resource language instruction tuning tokenizer optimization 或 搜索:

📄 论文总结

KORMo-10B:基于合成数据的完全开放韩英双语大语言模型 / KORMo-10B: A Fully Open Bilingual Korean-English Large Language Model Driven by Synthetic Data


1️⃣ 一句话总结

本研究开发了首个完全开放的韩英双语大语言模型KORMo-10B,证明了即使主要使用合成数据(韩语数据中占68.73%),也能成功构建性能与当代开源多语言基线模型相当的基础大模型。


2️⃣ 论文创新点

1. 合成数据驱动的完全开放模型

2. 双语指令调优

3. 训练配置系统优化

4. 代理到目标模型迁移策略


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF