arXiv最新AI论文速览速学

🔍

标签: #curriculum learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation 03-16

arXiv ID: 2603.09101

arXiv 提交日期: 2026-03-10

medical multi-modal model training vision-language pretraining curriculum learning medical imaging contrastive learning distribution shift

MedKCO：通过知识驱动的认知编排进行医学视觉-语言预训练 / MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

1️⃣ 一句话总结

这篇论文提出了一种名为MedKCO的新方法，通过模仿人类由易到难的认知过程来改进医学AI模型的训练，使其在应对不同医疗任务时表现更稳定、更准确。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08182

arXiv 提交日期: 2026-03-09

llm natural language processing model training multilingual llm curriculum learning low-resource languages data imbalance model evaluation

TildeOpen LLM：利用课程学习实现公平的语言表征 / TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

1️⃣ 一句话总结

这篇论文提出了一个名为TildeOpen LLM的300亿参数开源大语言模型，它通过巧妙的数据增广和课程学习训练策略，显著提升了34种欧洲语言（尤其是低资源语言）的处理能力，在减少计算资源消耗的同时实现了更公平的多语言性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05256

arXiv 提交日期: 2026-03-05

multi-modal model training natural language processing visual question answering knowledge-based reasoning curriculum learning reinforcement learning data generation

Wiki-R1：通过数据和采样课程激励基于知识的视觉问答中的多模态推理 / Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

1️⃣ 一句话总结

这篇论文提出了一种名为Wiki-R1的课程学习框架，通过生成可控难度的训练数据和智能采样策略，帮助多模态大语言模型更好地结合外部知识来回答图片相关的问题，从而在两项视觉问答基准测试上取得了新的最佳性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05113

arXiv 提交日期: 2026-03-05

reinforcement learning robotics model training reward shaping curriculum learning multi-objective optimization sample reuse robotic control

解耦任务与行为：机器人强化学习中的两阶段奖励课程 / Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

1️⃣ 一句话总结

这篇论文提出了一种两阶段训练方法，先让机器人学会基本任务，再引导它优化行为细节（如节能），从而更简单有效地训练出性能更好、更稳定的机器人控制策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21492

arXiv 提交日期: 2026-02-25

llm reinforcement learning model training data selection policy gradient curriculum learning non-stationary optimization rlhf

GradAlign：面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为GradAlign的新方法，它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据，来为大语言模型的强化学习自动筛选高质量训练问题，从而在各种困难数据场景下实现更稳定、更高效的模型优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20532

arXiv 提交日期: 2026-02-24

llm reinforcement learning model training curriculum learning policy improvement bandit algorithms post-training automated data selection

Actor-Curator：一种通过策略改进老虎机实现协同自适应课程学习的强化学习后训练框架 / Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training

1️⃣ 一句话总结

这篇论文提出了一个名为Actor-Curator的自动化课程学习框架，它通过一个智能‘策展人’动态选择训练题目来优化大语言模型的强化学习后训练过程，从而显著提升了模型在复杂推理任务上的性能和训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21193

arXiv 提交日期: 2026-02-24

llm agents model training terminal agents synthetic data generation data engineering curriculum learning benchmark evaluation

关于扩展大语言模型终端能力的数据工程研究 / On Data Engineering for Scaling LLM Terminal Capabilities

1️⃣ 一句话总结

这篇论文通过开发一个名为Terminal-Task-Gen的自动化任务生成工具和一套数据训练策略，成功创建了能大幅提升大语言模型在命令行终端操作能力的数据集和模型，并将这些资源开源以推动该领域研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12036

arXiv 提交日期: 2026-02-12

llm reinforcement learning model training verifiable prompts prompt composition reasoning curriculum learning cross-domain

组合式强化学习：为大型语言模型的强化学习构建可验证提示 / Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Composition-RL的新方法，通过自动组合多个简单问题来生成新的、更复杂的训练提示，从而更有效地利用有限的可验证数据来提升大型语言模型的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13761

arXiv 提交日期: 2026-01-20

llm model training agents self-play curriculum learning reasoning knowledge distillation self-improvement

DARC：用于大语言模型进化的解耦非对称推理课程 / DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

1️⃣ 一句话总结

这篇论文提出了一个名为DARC的两阶段自学习框架，通过先训练提问模型生成难度可控的问题，再让一个拥有文档访问权限的教师模型指导无文档访问权限的学生解答模型，有效解决了大语言模型在自我对弈训练中的不稳定性问题，从而在多个推理任务上显著提升了模型性能，且无需人工标注数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13262

arXiv 提交日期: 2026-01-19

llm medical natural language processing multilingual reasoning reinforcement learning medical dataset curriculum learning policy optimization

CURE-Med：基于课程学习的强化学习框架用于多语言医学推理 / CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

1️⃣ 一句话总结

该论文提出了一个结合课程学习思想的强化学习框架，通过构建多语言医学推理数据集并优化模型训练方法，显著提升了大型语言模型在多种语言（包括资源匮乏语言）下进行医学推理的逻辑准确性和语言一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09101

1️⃣ 一句话总结

arXiv ID: 2603.08182

1️⃣ 一句话总结

arXiv ID: 2603.05256

1️⃣ 一句话总结

arXiv ID: 2603.05113

1️⃣ 一句话总结

arXiv ID: 2602.21492

1️⃣ 一句话总结

arXiv ID: 2602.20532

1️⃣ 一句话总结

arXiv ID: 2602.21193

1️⃣ 一句话总结

arXiv ID: 2602.12036

1️⃣ 一句话总结

arXiv ID: 2601.13761

1️⃣ 一句话总结

arXiv ID: 2601.13262

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09101 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08182 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05256 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05113 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21193 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13262 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09101

arXiv ID: 2603.08182

arXiv ID: 2603.05256

arXiv ID: 2603.05113

arXiv ID: 2602.21492

arXiv ID: 2602.20532

arXiv ID: 2602.21193

arXiv ID: 2602.12036

arXiv ID: 2601.13761

arXiv ID: 2601.13262