← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: systems
详细标签: mixture-of-experts scientific ai dynamic tokenizer mixture-of-rewards multimodal foundation model 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了一个名为 Intern-S1 的大规模开源多模态基础模型,它专门为解决科学领域(如化学、物理、生物)中复杂、低资源的推理任务而设计;其核心创新在于采用了 混合专家(MoE)架构 和一种新颖的 奖励混合(Mixture-of-Rewards, MoR) 强化学习训练框架,并在从数据处理到模型架构的多个层面进行了针对性优化,最终在多项科学任务上超越了现有开源和闭源模型的性能。


2️⃣ 论文创新点

创新的模型架构:面向科学的通用多模态建模

创新点在于构建了一个专为科学领域设计的大规模(28B激活,241B总参数)多模态模型,其MoE架构能高效处理文本、图像及科学专用数据(如分子结构、时间序列)。与通用基础模型相比,它针对科学数据的独特性和低资源特性进行了深度优化,从而在专业任务上实现了显著性能提升。

动态分词器(Dynamic Tokenizer):解决科学符号表示难题

创新点在于提出了一种动态分词器,它能根据输入内容(如自然语言或SMILES化学字符串)智能切换不同的分词策略和嵌入矩阵。这与使用单一通用分词器的传统方法截然不同,有效解决了科学符号中存在的频率不平衡和表示偏差问题,大幅提升了数据处理效率和模型理解能力。

奖励混合(MoR)框架:统一调和多源强化学习信号

创新点在于提出了MoR框架,用于在强化学习阶段协调来自不同科学任务、不同形式(如验证模型、规则、环境)的奖励信号。这与使用单一奖励信号的常规RL方法相比,能更稳定、高效地引导模型学习复杂的科学推理能力,解决了多目标优化中的冲突问题。

高质量科学数据流水线:智能挖掘与清洗

创新点在于设计了一套高效的数据处理流水线,包括:1) 基于智能体和启发式规则的成本优化PDF解析方案,动态路由疑难页面至高精度VLM解析器;2) 基于URL域名的分组过滤策略,利用LLM对同一域名下的页面进行统一决策。这些方法相比通用爬取和清洗流程,能以更低成本获得更高质量、领域相关的科学语料。

高效训练基础设施与策略:实现大规模稳定训练

创新点在于提出了一系列底层优化技术,包括:可变长度平衡策略(VLBS) 以解决分布式训练中的负载不均问题、FP8混合精度训练 以节省显存、以及 多阶段训练批次大小预热 策略。这些协同设计保障了庞大MoE模型训练的可行性和效率。


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


📄 打开原文 PDF