← 返回列表

菜单

🤖 系统
📄 Abstract - Search Self-play: Unsupervised Training Framework for Deep Search Agents
正在获取摘要...
顶级标签: llm agents
详细标签: self-play unsupervised training search agents reinforcement learning retrieval-augmented generation 或 搜索:

📄 论文总结

搜索自我博弈:无需监督的深度搜索代理训练框架 / Search Self-play: Unsupervised Training Framework for Deep Search Agents


1️⃣ 一句话总结

Search Self-play (SSP) 是一种无需人工监督的深度搜索代理训练框架,通过让大型语言模型同时扮演任务提出者和问题解决者角色,在自我博弈中实现代理能力的协同进化。


2️⃣ 论文创新点

1. 搜索自我博弈框架

2. 双角色自我博弈机制

3. 检索增强生成验证机制

4. 双重过滤机制


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF