PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
1️⃣ 一句话总结
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
请先 登录 后再提交论文
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
Kandinsky 5.0:用于图像和视频生成的基础模型系列 / Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
这篇论文介绍了Kandinsky 5.0,一个包含图像和视频生成功能的先进基础模型系列,通过创新的数据管理和训练技术实现了高质量、高效率的生成效果,并开源以推动相关研究发展。
TabTune:用于表格基础模型推理与微调的统一库 / TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models
这篇论文提出了一个名为TabTune的统一工具库,旨在解决表格基础模型在实际应用中因接口不一致、预处理复杂和评估标准缺失等问题,通过提供标准化的流程支持多种模型和微调方法,以提升模型的可用性和评估效率。
LLM4Cell:面向单细胞生物学的大语言与智能体模型综述 / LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
这篇论文首次系统综述了58种应用于单细胞生物学研究的大语言与智能体模型,通过整合多模态数据和评估标准,揭示了该领域在数据整合、模型解释性及伦理安全方面的挑战与进展。
PuzzlePlex:基于谜题评估基础模型的推理与规划能力 / PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
这篇论文提出了一个名为PuzzlePlex的多样化谜题测试平台,用于系统评估基础模型在复杂环境中的推理和规划能力,发现基于指令的推理模型表现更优,而基于代码的执行方式虽具挑战但扩展性更强。
面向机器人学习的视觉专家变换器:基于基础模型蒸馏与动态路由 / VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
这项研究提出了一种名为VER的视觉专家变换器,它通过将多个预训练视觉基础模型的优势整合到一个专家库中,并仅需微调极少量参数来动态选择任务相关专家,从而在17种不同的机器人任务中实现了顶尖性能,同时大幅提升了模型的灵活性和适应性。