arXiv最新AI论文速览速学

🔍

标签: #curriculum learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation 06-10

arXiv ID: 2602.21492

arXiv 提交日期: 2026-02-25

llm reinforcement learning model training data selection policy gradient curriculum learning non-stationary optimization rlhf

GradAlign：面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为GradAlign的新方法，它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据，来为大语言模型的强化学习自动筛选高质量训练问题，从而在各种困难数据场景下实现更稳定、更高效的模型优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20532

arXiv 提交日期: 2026-02-24

llm reinforcement learning model training curriculum learning policy improvement bandit algorithms post-training automated data selection

Actor-Curator：一种通过策略改进老虎机实现协同自适应课程学习的强化学习后训练框架 / Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training

1️⃣ 一句话总结

这篇论文提出了一个名为Actor-Curator的自动化课程学习框架，它通过一个智能‘策展人’动态选择训练题目来优化大语言模型的强化学习后训练过程，从而显著提升了模型在复杂推理任务上的性能和训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21193

arXiv 提交日期: 2026-02-24

llm agents model training terminal agents synthetic data generation data engineering curriculum learning benchmark evaluation

关于扩展大语言模型终端能力的数据工程研究 / On Data Engineering for Scaling LLM Terminal Capabilities

1️⃣ 一句话总结

这篇论文通过开发一个名为Terminal-Task-Gen的自动化任务生成工具和一套数据训练策略，成功创建了能大幅提升大语言模型在命令行终端操作能力的数据集和模型，并将这些资源开源以推动该领域研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12036

arXiv 提交日期: 2026-02-12

llm reinforcement learning model training verifiable prompts prompt composition reasoning curriculum learning cross-domain

组合式强化学习：为大型语言模型的强化学习构建可验证提示 / Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Composition-RL的新方法，通过自动组合多个简单问题来生成新的、更复杂的训练提示，从而更有效地利用有限的可验证数据来提升大型语言模型的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13761

arXiv 提交日期: 2026-01-20

llm model training agents self-play curriculum learning reasoning knowledge distillation self-improvement

DARC：用于大语言模型进化的解耦非对称推理课程 / DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

1️⃣ 一句话总结

这篇论文提出了一个名为DARC的两阶段自学习框架，通过先训练提问模型生成难度可控的问题，再让一个拥有文档访问权限的教师模型指导无文档访问权限的学生解答模型，有效解决了大语言模型在自我对弈训练中的不稳定性问题，从而在多个推理任务上显著提升了模型性能，且无需人工标注数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13262

arXiv 提交日期: 2026-01-19

llm medical natural language processing multilingual reasoning reinforcement learning medical dataset curriculum learning policy optimization

CURE-Med：基于课程学习的强化学习框架用于多语言医学推理 / CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

1️⃣ 一句话总结

该论文提出了一个结合课程学习思想的强化学习框架，通过构建多语言医学推理数据集并优化模型训练方法，显著提升了大型语言模型在多种语言（包括资源匮乏语言）下进行医学推理的逻辑准确性和语言一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10129

arXiv 提交日期: 2026-01-15

multi-modal model training natural language processing visual reasoning attention alignment knowledge distillation multimodal grounding curriculum learning

LaViT：对齐潜在视觉思维以实现多模态推理 / LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为LaViT的新框架，通过让学生模型在生成文本前先学习并复现教师模型的视觉关注轨迹和语义理解，有效解决了多模态推理中模型仅依赖语言先验而忽视真实视觉感知的问题，从而显著提升了模型的视觉基础能力，让小模型也能在复杂推理任务上取得优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04809

arXiv 提交日期: 2026-01-08

reinforcement learning llm model training adaptive environment design reasoning synthetic data generation curriculum learning multi-environment rl

SCALER：用于推理的合成可扩展自适应学习环境 / SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为SCALER的框架，它通过自动生成难度可控且无限量的推理问题来训练大型语言模型，并动态调整训练内容的难度和多样性，从而让模型在强化学习中能够持续、稳定地提升其推理能力，避免了传统方法中训练信号失效或过拟合的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04888

arXiv 提交日期: 2026-01-08

llm agents natural language processing search agents query refinement process reward curriculum learning information retrieval

SmartSearch：面向搜索代理的、基于过程奖励引导的查询优化框架 / SmartSearch: Process Reward-Guided Query Refinement for Search Agents

1️⃣ 一句话总结

这篇论文提出了一个名为SmartSearch的新框架，它通过引入过程奖励来精细评估和优化大型语言模型搜索代理在推理过程中产生的中间搜索查询质量，从而显著提升了搜索的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01426

arXiv 提交日期: 2026-01-04

llm model training systems supervised fine-tuning software engineering code generation curriculum learning verification

SWE-Lego：探索监督微调在软件问题解决任务中的性能极限 / SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

1️⃣ 一句话总结

这篇论文提出了一个名为SWE-Lego的监督微调方案，通过构建高质量数据集和改进训练流程，证明了仅用轻量化的监督微调方法就能在软件工程问题解决任务上达到顶尖性能，并可通过测试时扩展进一步提升效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21492

1️⃣ 一句话总结

arXiv ID: 2602.20532

1️⃣ 一句话总结

arXiv ID: 2602.21193

1️⃣ 一句话总结

arXiv ID: 2602.12036

1️⃣ 一句话总结

arXiv ID: 2601.13761

1️⃣ 一句话总结

arXiv ID: 2601.13262

1️⃣ 一句话总结

arXiv ID: 2601.10129

1️⃣ 一句话总结

arXiv ID: 2601.04809

1️⃣ 一句话总结

arXiv ID: 2601.04888

1️⃣ 一句话总结

arXiv ID: 2601.01426

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21193 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13262 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10129 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04809 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04888 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01426 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21492

arXiv ID: 2602.20532

arXiv ID: 2602.21193

arXiv ID: 2602.12036

arXiv ID: 2601.13761

arXiv ID: 2601.13262

arXiv ID: 2601.10129

arXiv ID: 2601.04809

arXiv ID: 2601.04888

arXiv ID: 2601.01426