基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
1️⃣ 一句话总结
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。
请先 登录 后再提交论文
基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。
听力障碍翻译个人助手 / HI-TransPA: Hearing Impairments Translation Personal Assistant
这项研究开发了一个名为HI-TransPA的多模态AI助手,它通过结合听障人士模糊的语音和唇部动态,在一个统一框架内实现精准的语音翻译和对话,有效提升了听障人士的日常沟通能力。
通过改造递归机制让预训练语言模型进行更深层思考 / Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
这项研究提出了一种将现有非递归预训练语言模型转化为深度递归模型的方法,通过渐进式增加模型有效深度的训练策略,在降低计算成本的同时提升了数学任务上的性能表现。
大语言模型有情感吗?通过提示、检索和课程学习教授情感识别 / Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning
这篇论文提出了一种名为PRC-Emo的新方法,通过结合提示工程、示例检索和课程学习,有效提升了大语言模型在对话中识别复杂情感的能力,并在多个测试集上取得了最佳性能。
竞争性编程代码生成中基于可验证奖励的强化学习数据管理最佳实践 / DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
这篇论文提出了一套针对竞争性编程代码生成任务的数据管理和强化学习训练方法,通过两阶段强化学习和课程设计,使模型在代码竞赛中达到了与顶尖系统相当的性能。
通过经验合成扩展智能体学习 / Scaling Agent Learning via Experience Synthesis
这篇论文提出了一个名为DreamGym的框架,它通过合成多样化的虚拟经验数据来高效训练强化学习智能体,从而克服了传统方法依赖真实环境交互成本高、任务单一等难题,并在多种测试中显著提升了训练效果和实际应用性能。
基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance
这篇论文提出了一种名为CROPI的新方法,通过理论指导的数据选择技术,大幅提升了大型语言模型在强化学习训练中的效率,仅用10%的数据就能实现2.66倍的加速效果。
CLASS-IT:面向BabyLMs的对话与讲座对齐小规模指令调优 / CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs
这项研究发现,对小规模语言模型进行指令调优能在特定任务上带来小幅但稳定的性能提升,但难以直接迁移到零样本场景,揭示了模型在交互适应与广泛语言泛化之间的权衡。
不仅要微调智能体,更要调整环境 / Don't Just Fine-tune the Agent, Tune the Environment
这篇论文提出了一种名为‘环境调优’的新训练方法,通过动态调整学习环境和设计渐进式课程,让AI智能体在没有专家示范数据的情况下,直接从问题实例中学习复杂任务,从而在数据稀缺时也能实现高效且稳定的训练,并具备出色的泛化能力。
强化中段训练 / Reinforcement Mid-Training
这篇论文提出了一种在预训练和微调之间加入强化中段训练的新方法,通过动态控制推理步骤、自适应学习关键知识点和双重训练策略,显著提升了语言模型的性能和效率。