arXiv最新AI论文速览速学

🔍

标签: #self-improvement ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Self-Improving Language Models with Bidirectional Evolutionary Search 05-28

arXiv ID: 2605.28814

arXiv 提交日期: 2026-05-27

llm model training evolutionary search self-improvement post-training inference

基于双向进化搜索的自我改进语言模型 / Self-Improving Language Models with Bidirectional Evolutionary Search

1️⃣ 一句话总结

本文提出了一种名为双向进化搜索（BES）的新方法，通过结合正向的候选方案进化（如重组部分解决方案）和反向的目标分解（将复杂任务拆解为可验证的子目标），解决了传统搜索方法（如最佳N采样或树搜索）在语言模型自我改进中探索范围有限和反馈稀疏的难题，显著提升了模型在训练和推理阶段的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01985

arXiv 提交日期: 2026-04-02

world models model training agents self-improvement forward-inverse asymmetry prediction verification sample efficiency cycle consistency

世界行动验证器：通过前向-逆向不对称实现自我改进的世界模型 / World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

1️⃣ 一句话总结

这篇论文提出了一种名为‘世界行动验证器’的新方法，通过将复杂的未来状态预测任务分解为两个更简单的验证问题，并利用数据与特征维度上的不对称性，让AI世界模型能够自我检测预测错误并持续改进，从而在多种机器人任务中显著提升了学习效率和最终表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25681

arXiv 提交日期: 2026-03-26

llm model training systems self-improvement autonomous learning closed-loop systems data generation iterative refinement

大语言模型的自我改进：技术概览与未来展望 / Self-Improvement of Large Language Models: A Technical Overview and Future Outlook

1️⃣ 一句话总结

这篇论文提出了一个让大语言模型自己生成数据、评估结果并不断优化自己的系统性框架，旨在解决人工监督成本高、难以持续提升模型能力的难题，并展望了未来实现完全自主改进的研究方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21585

arXiv 提交日期: 2026-02-25

llm model evaluation agents test-time optimization evolutionary algorithm pairwise preference self-improvement bradley-terry model

Duel-Evolve：基于大语言模型自我偏好的无奖励测试时优化方法 / Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

1️⃣ 一句话总结

这篇论文提出了一种名为Duel-Evolve的新方法，它让大语言模型在测试时通过比较自己生成的多个候选答案的优劣来迭代优化输出，无需依赖外部评分或奖励模型，就能在数学和代码生成等任务上显著提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18778

arXiv 提交日期: 2026-01-26

llm model training reinforcement learning meta-reinforcement learning self-improvement automated curriculum reasoning plateau sparse rewards

教模型自我教学：在可学习性边缘的推理 / Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

1️⃣ 一句话总结

这篇论文提出了一个名为SOAR的自我改进框架，它让一个大语言模型扮演‘老师’，通过生成自己不会解的难题来为‘学生’版本的自己创建学习课程，从而在没有额外人工数据的情况下，成功突破了模型在解决高难度数学问题时的学习瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15808

arXiv 提交日期: 2026-01-22

llm agents model evaluation verification self-improvement test-time inference rubric-guided failure taxonomy

验证的推理时扩展：通过测试时准则引导的验证实现自演化的深度研究智能体 / Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

1️⃣ 一句话总结

这篇论文提出了一种新方法，让深度研究智能体在推理时通过一套自动生成的准则来验证和迭代改进自己的答案，从而无需额外训练就能自我提升，显著提高了复杂任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13761

arXiv 提交日期: 2026-01-20

llm model training agents self-play curriculum learning reasoning knowledge distillation self-improvement

DARC：用于大语言模型进化的解耦非对称推理课程 / DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

1️⃣ 一句话总结

这篇论文提出了一个名为DARC的两阶段自学习框架，通过先训练提问模型生成难度可控的问题，再让一个拥有文档访问权限的教师模型指导无文档访问权限的学生解答模型，有效解决了大语言模型在自我对弈训练中的不稳定性问题，从而在多个推理任务上显著提升了模型性能，且无需人工标注数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10657

arXiv 提交日期: 2026-01-15

llm agents model training evolutionary search long-horizon planning context management search dynamics self-improvement

PACEvolve：实现长周期、进度感知的一致性进化 / PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution

1️⃣ 一句话总结

这篇论文提出了一个名为PACEvolve的新框架，它通过智能管理搜索过程中的信息和动态协调不同探索路径，解决了大语言模型在长期进化搜索中容易出现的三大问题，从而让AI系统能更稳定、高效地自我改进并发现更好的解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03193

arXiv 提交日期: 2026-01-06

multi-modal model training aigc self-improvement multimodal generation text-to-image cycle consistency self-supervised learning

UniCorn：通过自生成监督实现自改进统一多模态模型 / UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

1️⃣ 一句话总结

这篇论文提出了一个名为UniCorn的自我改进框架，它能让一个统一的多模态AI模型通过内部角色扮演和自我博弈，在没有外部数据或人工指导的情况下，显著提升自己根据文字描述生成高质量图像的能力，同时保持对图像内容的理解力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04797

arXiv 提交日期: 2025-12-04

agents multi-modal model training embodied ai vision-language-action generalist agent cross-environment generalization self-improvement

SIMA 2：用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds

1️⃣ 一句话总结

SIMA 2是一个基于Gemini基础模型构建的通用具身智能体，能够在多样化的3D虚拟世界中理解、推理、行动和对话，实现了从被动指令跟随到主动目标导向交互伙伴的范式转变，并展现出强大的跨环境泛化与开放式自我改进能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.28814

1️⃣ 一句话总结

arXiv ID: 2604.01985

1️⃣ 一句话总结

arXiv ID: 2603.25681

1️⃣ 一句话总结

arXiv ID: 2602.21585

1️⃣ 一句话总结

arXiv ID: 2601.18778

1️⃣ 一句话总结

arXiv ID: 2601.15808

1️⃣ 一句话总结

arXiv ID: 2601.13761

1️⃣ 一句话总结

arXiv ID: 2601.10657

1️⃣ 一句话总结

arXiv ID: 2601.03193

1️⃣ 一句话总结

arXiv ID: 2512.04797

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.28814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01985 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21585 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18778 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15808 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03193 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04797 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.28814

arXiv ID: 2604.01985

arXiv ID: 2603.25681

arXiv ID: 2602.21585

arXiv ID: 2601.18778

arXiv ID: 2601.15808

arXiv ID: 2601.13761

arXiv ID: 2601.10657

arXiv ID: 2601.03193

arXiv ID: 2512.04797