arXiv最新AI论文速览速学

🔍

标签: #curriculum learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation 06-10

arXiv ID: 2606.10601

arXiv 提交日期: 2026-06-09

reinforcement learning multi-agents model training mesh generation quadrilateral mesh curriculum learning soft actor-critic geometric decomposition

Dmsh：一种用于全四边形网格生成的多智能体强化学习框架 / Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

1️⃣ 一句话总结

本文提出了一种名为Dmsh的全自动强化学习框架，通过三个协同工作的智能体（分别处理拓扑简化、几何正则化和网格生成）将复杂几何体递归分解，从而生成高质量的全四边形网格，有效替代了传统需要人工调节的繁琐流程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09248

arXiv 提交日期: 2026-06-08

multi-modal reinforcement learning video video temporal grounding reasoning optimization reward design temporal awareness curriculum learning

时序感知推理优化用于视频时序定位 / Temporal-Aware Reasoning Optimization for Video Temporal Grounding

1️⃣ 一句话总结

该论文提出了一种名为TaRO的框架，通过构建基于视觉线索和时间戳的高质量推理路径，并设计一种能评估推理过程是否真正关注时间事件的奖励机制，显著提升了多模态大模型在视频中精准定位特定事件片段的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20177

arXiv 提交日期: 2026-05-19

machine learning computer vision model training vision-language models perception vs reasoning post-training reinforcement learning curriculum learning

从看到思考：解耦感知与推理提升视觉语言模型的后训练效果 / From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，当前视觉语言模型在视觉任务上的主要瓶颈在于视觉感知能力不足，而非推理能力本身，因此提出将训练过程分解为视觉感知、视觉推理和文本推理三个独立阶段，并证明这种分阶段训练方法能显著提高模型准确率、缩短推理链条，其效果优于传统混合训练和单一难度的课程学习。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19263

arXiv 提交日期: 2026-05-19

machine learning theory physics-informed neural networks curriculum learning gaussian mixture models partial differential equations convergence guarantees

从简单到复杂：基于高斯混合模型的课程引导物理信息神经网络 / From Simple to Complex: Curriculum-Guided Physics-Informed Neural Networks via Gaussian Mixture Models

1️⃣ 一句话总结

本文提出了一种名为CGMPINN的新方法，通过将高斯混合模型与动态课程学习相结合，让物理信息神经网络能够像人类学习一样，先从简单区域入手，再逐步挑战复杂区域，从而大幅提升求解偏微分方程的效率和精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26844

arXiv 提交日期: 2026-04-29

llm natural language processing model training curriculum learning language typology inductive bias word order

在课程学习下，什么样的语言对语言模型来说是容易的？ / What Kind of Language is Easy to Language-Model Under Curriculum Learning?

1️⃣ 一句话总结

这项研究通过让语言模型先学习简单句子再接触复杂句子（课程学习），发现这种类似人类的学习顺序会显著改变模型对不同语言类型的偏好，从而部分解释了为什么现实世界中某些语言特征组合更加常见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26707

arXiv 提交日期: 2026-04-29

multi-modal model training video curriculum learning self-evolution video question answering question generation evaluation

CurEvo：课程引导的自我进化视频理解框架 / CurEvo: Curriculum-Guided Self-Evolution for Video Understanding

1️⃣ 一句话总结

CurEvo通过引入课程学习机制，让视频理解模型在无需人工标注的情况下，根据自身能力动态调整学习任务的难度和多样性，从而像学生上课一样循序渐进地自我提升，显著提高了视频问答的准确性和语义理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25444

arXiv 提交日期: 2026-04-28

llm reinforcement learning machine learning inference-time reasoning query refinement reinforcement learning curriculum learning reasoning elicitation

一个精炼器解锁所有模型：通过强化查询精炼实现推理时的推理激发 / One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement

1️⃣ 一句话总结

本文提出了一种名为ReQueR的模块化框架，通过强化学习训练一个独立的精炼器，在推理过程中自动将模糊的人类提问转化为清晰的逻辑步骤，从而无需微调就能显著提升多种大型语言模型的推理能力，平均性能提高2.1%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24005

arXiv 提交日期: 2026-04-27

agents reinforcement learning llm on-policy distillation curriculum learning multi-turn agents kl divergence benchmark

TCOD：多轮自主智能体在线策略蒸馏中的时间课程探索 / TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

1️⃣ 一句话总结

本文提出了一种名为TCOD的简单有效方法，通过循序渐进的课程式训练策略，让小型模型在模仿大型教师模型处理多步骤任务（如操作虚拟环境和在线购物）时，避免因错误积累导致的训练不稳定，从而显著提升其成功率，甚至在某些任务上超越教师模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21209

arXiv 提交日期: 2026-04-23

llm natural language processing model training finetuning preference alignment hallucination mitigation online reviews curriculum learning

将生成式人工智能与人类偏好对齐：一种用于在线评论管理的大型语言模型微调新方法 / Align Generative Artificial Intelligence with Human Preferences: A Novel Large Language Model Fine-Tuning Method for Online Review Management

1️⃣ 一句话总结

本文提出了一种新的偏好微调方法，通过减少模型幻觉、自动构建人类偏好对以及创新性地放松离线策略的过度保守性，使通用大语言模型能更精准地根据领域内人类偏好生成在线评论回复。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18254

arXiv 提交日期: 2026-04-20

llm natural language processing model training text-to-sql curriculum learning code generation modular adapters fine-tuning

LeGo-Code：模块化课程学习能否推动复杂代码生成？来自Text-to-SQL任务的见解 / LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

1️⃣ 一句话总结

这篇论文提出了一种名为‘模块化适配器组合’的新方法，通过像搭乐高一样分阶段、由易到难地训练AI模型，有效解决了当前大语言模型在处理复杂数据库查询语句时遇到的困难，从而提升了模型生成复杂代码的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.10601

1️⃣ 一句话总结

arXiv ID: 2606.09248

1️⃣ 一句话总结

arXiv ID: 2605.20177

1️⃣ 一句话总结

arXiv ID: 2605.19263

1️⃣ 一句话总结

arXiv ID: 2604.26844

1️⃣ 一句话总结

arXiv ID: 2604.26707

1️⃣ 一句话总结

arXiv ID: 2604.25444

1️⃣ 一句话总结

arXiv ID: 2604.24005

1️⃣ 一句话总结

arXiv ID: 2604.21209

1️⃣ 一句话总结

arXiv ID: 2604.18254

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.10601 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09248 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20177 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19263 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26707 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24005 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21209 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18254 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.10601

arXiv ID: 2606.09248

arXiv ID: 2605.20177

arXiv ID: 2605.19263

arXiv ID: 2604.26844

arXiv ID: 2604.26707

arXiv ID: 2604.25444

arXiv ID: 2604.24005

arXiv ID: 2604.21209

arXiv ID: 2604.18254