arXiv最新AI论文速览速学

🔍

标签: #gumbel-softmax ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: LEPO: Latent Reasoning Policy Optimization for Large Language Models 04-26

arXiv ID: 2604.17892

arXiv 提交日期: 2026-04-20

llm reinforcement learning latent reasoning gumbel-softmax policy optimization stochastic sampling gradient estimation

潜在推理策略优化：面向大语言模型的连续空间推理增强方法 / LEPO: Latent Reasoning Policy Optimization for Large Language Models

1️⃣ 一句话总结

本文提出一种名为LEPO的新框架，通过向大语言模型的潜在推理过程中注入可控随机性（利用Gumbel-Softmax技术），使得模型能在连续思维空间中探索多样化的推理路径，并直接应用强化学习优化这些潜在表示，从而显著提升推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18556

arXiv 提交日期: 2026-04-20

llm model training weight quantization gumbel-softmax post-training quantization scalar quantization low-bitwidth inference

GSQ：基于Gumbel-Softmax采样的高精度低比特标量量化方法，适用于大型语言模型 / GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling

1️⃣ 一句话总结

本文提出了一种名为GSQ的标量量化方法，通过Gumbel-Softmax技巧来优化量化网格和缩放参数，使得在2-3比特的低精度下，其压缩效果几乎能追上复杂向量量化方法的水平，同时保持了简单标量量化的高效部署优势，并成功应用于千亿参数规模的混合专家模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.06411

arXiv 提交日期: 2025-11-09

llm model training reinforcement learning policy optimization soft-thinking gumbel-softmax reasoning gradient reparameterization

SofT-GRPO：通过Gumbel重参数化软思维策略优化超越离散令牌大语言模型强化学习 / SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SofT-GRPO的新算法，通过引入Gumbel噪声和重参数化技术，成功实现了对软思维推理模式大语言模型的强化学习训练，使其在多项测试中超越了传统的离散令牌强化学习方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.17892

1️⃣ 一句话总结

arXiv ID: 2604.18556

1️⃣ 一句话总结

arXiv ID: 2511.06411

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.17892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18556 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.06411 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.17892

arXiv ID: 2604.18556

arXiv ID: 2511.06411