📄 论文总结
科学推理基础模型
SciReasoner
1️⃣ 一句话总结
SciReasoner是一个通过统一框架整合自然语言与多种科学表示的科学推理基础模型,在预训练、指令微调和推理强化学习三阶段训练下,在多个科学任务上实现了卓越性能。
2️⃣ 论文创新点
1. 自适应科学推理
- 创新点是什么:模型根据任务需求区分即时任务和思考任务,仅在需要推理的任务中生成链式思维监督,优化推理能力分配
- 与已有方法的区别/改进:通过任务模式分离,保留SFT数据用于即时任务,用CoT增强数据替换思考任务数据
- 为什么有意义:提高复杂科学任务的推理连贯性,同时保持简单任务的效率和准确性
2. 任务分组奖励
- 创新点是什么:将科学奖励分为三类:基于距离的预测奖励、基于匹配的检索奖励和科学工具验证的奖励
- 与已有方法的区别/改进:分组奖励使模型能共享不同任务间的共同知识,简化强化学习框架
- 为什么有意义:增强跨任务知识迁移,提升科学推理模式的鼓励和校正效果
3. 科学奖励软化
- 创新点是什么:将二元奖励信号转换为连续尺度,解决强化学习收敛困难问题
- 与已有方法的区别/改进:开发任务特定奖励的连续缩放方法
- 为什么有意义:改善强化学习在科学任务中的稳定性和收敛性
4. 多模态科学数据整合
- 创新点是什么:整合自然语言与多种科学表示(分子表示、蛋白质序列等)
- 与已有方法的区别/改进:超越固定任务菜单的跨领域泛化
- 为什么有意义:减少专家流程的碎片化,实现端到端科学工作流覆盖
5. 推理强化学习
- 创新点是什么:将语言评分指标和定量指标统一为连续奖励信号
- 与已有方法的区别/改进:促进稳定训练并提升复杂科学推理任务性能
- 为什么有意义:显著增强模型在科学推理任务上的表现
3️⃣ 主要结果与价值
实验结果亮点
- 在54个任务上达到SOTA,101个任务上排名前二
- 在多项分子表示转换任务中表现优于基线模型
- 支持五大科学能力家族(翻译、知识提取、属性预测、分类、生成设计)
- 覆盖103个任务,包括科学格式翻译、知识提取、属性预测、分类和序列生成
实际应用价值
- 支持数据增强、工具链和透明的人机协作
- 实现跨领域泛化,支持更广泛和多样化的任务组合
- 通过长形式思维过程确保推理的保真度和可验证性
- 在阅读-推理-设计循环中支持预测、设计、翻译和文献基础提取
4️⃣ 术语表
- SciReasoner:科学推理基础模型,支持自然语言与科学表示对齐,覆盖多学科任务
- CoT:链式思维,用于增强复杂科学任务的推理过程
- SFT:监督微调阶段,聚合了超100个科学子任务,使模型适应可操作的研究目标
- BERTScore:语言基于评分指标,用于评估生成文本质量
- SMILES:简化分子线性输入规范,一种用ASCII字符串明确描述分子结构的化学符号系统
- IUPAC:国际纯粹与应用化学联合会命名法,化学命名的标准系统
- SELFIES:自引用嵌入字符串,一种100%鲁棒的分子表示方法,能确保所有字符串对应有效分子
- Cold Start:在强化学习前构建仅包含正确推理链的语料库作为冷启动先验
- empirical solve rate:通过多次随机采样计算实例的正确解决概率,用于筛选中等难度训练数据