arXiv最新AI论文速览速学

🔍

标签: #self-play ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Discovering Lattice Reduction Strategies via Self-Play 06-22

arXiv ID: 2606.15301

arXiv 提交日期: 2026-06-13

reinforcement learning machine learning theory deep reinforcement learning lattice reduction self-play monte carlo tree search generalization

通过自我对弈发现格基约简策略 / Discovering Lattice Reduction Strategies via Self-Play

1️⃣ 一句话总结

本工作将格基约简问题建模为单人马尔可夫决策过程，并利用类似AlphaZero的深度强化学习方法，训练出一个名为DeltaStar的神经网络策略；该策略仅在8维小规模格上训练，就能在无需重新训练的情况下，零样本推广到更高维度的格，并比经典的LLL算法使用更少的操作步骤。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03489

arXiv 提交日期: 2026-06-02

llm model training security code generation self-play secure code reinforcement learning vulnerability detection

从错误中学习：用于安全代码大模型的树状自对弈方法 / Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs

1️⃣ 一句话总结

本文提出了一种名为树状自对弈（TSP）的新方法，通过让代码生成模型在类似下棋的自我对战中探索安全与不安全的代码路径，从而精确修正生成过程中的微小安全错误，使模型不仅显著提升了生成代码的安全性，还能将学到的安全逻辑跨语言（如从C/C++推广到Python、Go）泛化应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21916

arXiv 提交日期: 2026-04-23

llm evaluation benchmark self-play mathematical reasoning problem posing co-evolving difficulty

数学对决：评估大型语言模型既出题又解题的能力 / MathDuels: Evaluating LLMs as Problem Posers and Solvers

1️⃣ 一句话总结

本文提出了一种名为MathDuels的新型评估方法，让大语言模型在对抗性环境中既扮演“出题者”又扮演“解题者”，从而揭示出传统静态测试无法区分的模型能力差异，并且随着更强模型的加入，题目难度会自动提升、避免测试天花板效应。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20209

arXiv 提交日期: 2026-04-22

llm reinforcement learning self-play scaling theorem proving reward hacking language model

自我引导的自我博弈扩展方法 / Scaling Self-Play with Self-Guidance

1️⃣ 一句话总结

本文提出了一种名为自我引导自我博弈（SGS）的新算法，让语言模型在自我对弈中同时扮演求解器、出题者和评价者三个角色，通过评价者筛选出高质量、有价值的题目来防止出题者生成无意义难题，从而让模型能在更长时间训练中持续进步，并在数学定理证明任务中表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18292

arXiv 提交日期: 2026-01-26

llm agents model training safety alignment reinforcement learning self-play adversarial training multi-agent collaboration

TriPlay-RL：用于大语言模型安全对齐的三角色自博弈强化学习框架 / TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

1️⃣ 一句话总结

这篇论文提出了一个名为TriPlay-RL的强化学习框架，通过让攻击者、防御者和评估者三个角色在闭环中自动博弈与协同进化，显著提升了大语言模型的安全防御能力、攻击多样性和评估准确性，且无需人工标注。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.13761

arXiv 提交日期: 2026-01-20

llm model training agents self-play curriculum learning reasoning knowledge distillation self-improvement

DARC：用于大语言模型进化的解耦非对称推理课程 / DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

1️⃣ 一句话总结

这篇论文提出了一个名为DARC的两阶段自学习框架，通过先训练提问模型生成难度可控的问题，再让一个拥有文档访问权限的教师模型指导无文档访问权限的学生解答模型，有效解决了大语言模型在自我对弈训练中的不稳定性问题，从而在多个推理任务上显著提升了模型性能，且无需人工标注数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.00602

arXiv 提交日期: 2025-11-01

llm model training agents self-improving reasoning self-play mathematical reasoning open-ended learning problem generation

OpenSIR：开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner

1️⃣ 一句话总结

这篇论文提出了一个名为OpenSIR的自我学习框架，让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题，在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.18821

arXiv 提交日期: 2025-10-21

agents reinforcement learning llm self-play search agents multi-turn search retrieval-augmented generation agent co-evolution

搜索自我博弈：无监督推动智能体能力前沿 / Search Self-play: Pushing the Frontier of Agent Capability without Supervision

1️⃣ 一句话总结

这篇论文提出了一种名为‘搜索自我博弈’的无监督训练方法，让大型语言模型同时扮演任务提出者和问题解决者两个角色，通过相互竞争与合作来共同提升搜索能力，无需人工标注即可显著提高智能体在各种任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.15301

1️⃣ 一句话总结

arXiv ID: 2606.03489

1️⃣ 一句话总结

arXiv ID: 2604.21916

1️⃣ 一句话总结

arXiv ID: 2604.20209

1️⃣ 一句话总结

arXiv ID: 2601.18292

1️⃣ 一句话总结

arXiv ID: 2601.13761

1️⃣ 一句话总结

arXiv ID: 2511.00602

1️⃣ 一句话总结

arXiv ID: 2510.18821

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.15301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21916 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20209 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18292 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.13761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.00602 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.18821 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.15301

arXiv ID: 2606.03489

arXiv ID: 2604.21916

arXiv ID: 2604.20209

arXiv ID: 2601.18292

arXiv ID: 2601.13761

arXiv ID: 2511.00602

arXiv ID: 2510.18821