← 返回列表

菜单

🤖 系统
📄 Abstract - SimKO: Simple Pass@K Optimization through Asymmetric Gradient Redistribution
正在获取摘要...
顶级标签: llm
详细标签: gradient redistribution reasoning diversity pass@k optimization reinforcement learning multi-path reasoning 或 搜索:

📄 论文总结

SimKO:通过非对称梯度重分布优化大语言模型推理多样性 / SimKO: Simple Pass@K Optimization through Asymmetric Gradient Redistribution


1️⃣ 一句话总结

本文提出SimKO方法,通过非对称梯度重分布解决强化学习可验证奖励训练中的概率过度集中问题,显著提升大语言模型在推理任务中的多样性和准确率。


2️⃣ 论文创新点

1. 非对称梯度重分布机制

2. 分叉标记识别技术

3. Top-K标签平滑


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF