SR-GRPO:将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
1️⃣ 一句话总结
这篇论文提出了一种名为‘稳定秩’的新方法,它通过分析模型内部表示的空间结构来自动评估输出质量,并以此作为奖励信号来优化大语言模型,无需依赖人工标注或外部奖励模型,就能有效提升模型在数学推理等任务上的表现。
请先 登录 后再提交论文
SR-GRPO:将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
这篇论文提出了一种名为‘稳定秩’的新方法,它通过分析模型内部表示的空间结构来自动评估输出质量,并以此作为奖励信号来优化大语言模型,无需依赖人工标注或外部奖励模型,就能有效提升模型在数学推理等任务上的表现。
通过基础对齐模型协作优化多样性与质量 / Optimizing Diversity and Quality through Base-Aligned Model Collaboration
这篇论文提出了一种名为BACo的新方法,通过在推理时动态结合基础模型和对齐模型来生成文本,使得大语言模型在保持高质量输出的同时显著提升了回答的多样性,解决了传统方法难以兼顾这两者的问题。
扩散-SDPO:扩散模型的安全直接偏好优化 / Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
本文提出了一种名为Diffusion-SDPO的新方法,通过自适应调整优化过程中的梯度更新,解决了现有扩散模型在偏好学习时可能导致图像质量下降的问题,从而在保持简单高效的同时,显著提升了生成图像与人类偏好的对齐效果。
SPG:面向掩码扩散语言模型的三明治策略梯度方法 / SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
本文提出了一种名为三明治策略梯度(SPG)的新方法,通过同时利用对数似然的上界和下界来减少策略梯度偏差,从而更有效地训练扩散大语言模型以符合人类偏好或任务奖励,在多个推理任务上显著超越了现有强化学习方法。
逆向IFEval:大语言模型能否忘记顽固的训练惯例以遵循真实指令? / Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?
这篇论文提出了一个名为逆向IFEval的新基准测试,用于评估大语言模型在遇到与训练模式相冲突的反常指令时,能否克服固有偏见并正确执行任务,从而揭示其在非常规场景下的适应能力不足问题。
通过向同行小组学习改进大型视觉语言模型 / Improving Large Vision and Language Models by Learning from a Panel of Peers
这项研究提出了一种让多个大型视觉语言模型互相评估和学习的新方法,通过模拟同行评审过程来提升模型性能,无需依赖大量人工标注数据,在多个测试中平均得分从48%提升至57%。