arXiv ID:
2602.04118
用13个参数学习推理 / Learning to Reason in 13 Parameters
1️⃣ 一句话总结
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
用13个参数学习推理 / Learning to Reason in 13 Parameters
这篇论文提出了一种名为TinyLoRA的新方法,它通过强化学习,仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理,性能接近使用成千上万参数的传统方法。
通过可扩展的交互式监督引导大型语言模型 / Steering LLMs via Scalable Interactive Oversight
这篇论文提出了一个名为‘可扩展交互式监督’的新框架,它通过将复杂的任务意图分解成一棵可管理的决策树,并引导用户在每一步提供简单的反馈,从而让非专业人士也能有效引导AI完成超出其自身专业能力的复杂任务,并在网页开发任务中验证了其有效性。
引导验证器:通过动态过程监督实现协作式多模态推理 / Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision
这篇论文提出了一种名为‘引导验证器’的新框架,通过让一个专门的验证模型在推理过程中实时监督和引导主模型,有效防止错误累积,从而显著提升了多模态大模型在复杂数学和推理任务上的表现。
从“增厚”到“减薄”:基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
这篇论文提出了一种名为T2T的动态奖励框架,它模仿人类学习过程,在模型推理错误时鼓励探索更长的解题路径以拓宽思路,在推理正确时则奖励简洁表达以提升效率,从而显著提升大语言模型在数学推理任务上的表现。
TRE:在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region
这篇论文提出了一种名为‘信任区域熵’的新方法,通过将探索限制在模型可信的范围内,有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题,并在数学推理等多个任务上取得了更好的效果。
论大语言模型强化微调中的熵动态 / On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
这篇论文建立了一个理论框架来分析大语言模型在强化微调过程中输出多样性的变化规律,并基于此提出了控制多样性的方法,以帮助模型在微调时更好地平衡探索新答案和利用已知知识。
MedSAM-Agent:通过多轮智能体强化学习赋能交互式医学图像分割 / MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
这篇论文提出了一个名为MedSAM-Agent的智能框架,它将医学图像分割任务重新定义为多步骤的自主决策过程,通过模仿人类专家的交互策略和设计新的训练方法,让AI能更高效、更精准地使用分割工具,从而在多种医学影像数据上取得了领先的性能。
ForesightKV:通过学习长期贡献优化推理模型的KV缓存淘汰机制 / ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution
这篇论文提出了一个名为ForesightKV的智能缓存管理框架,它通过结合监督学习和强化学习来预测并淘汰推理过程中不重要的中间数据,从而在只使用一半缓存的情况下,显著提升大语言模型处理长文本时的效率和性能。
从人类偏好中学习特定查询的评分标准以用于深度研究报告生成 / Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
这篇论文提出了一种新方法,通过结合人类偏好和强化学习,自动生成针对具体查询的精细评分标准,从而更有效地训练和评估AI生成的深度研究报告,使其性能接近顶尖的闭源模型。
手风琴式思考:通过自调节步骤摘要实现高效可读的大语言模型推理 / Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
这篇论文提出了一种名为‘手风琴式思考’的新方法,让大语言模型学会在推理过程中自动总结并压缩中间思考步骤,从而在不降低解题准确性的前提下,大幅提升推理效率并降低内存消耗,同时生成的摘要也使推理过程对人类更易读。
请先 登录 后再提交论文