arXiv ID:
2602.04364
任意时间有效的共形风险控制 / Anytime-Valid Conformal Risk Control
1️⃣ 一句话总结
这篇论文提出了一种新的统计方法,能够确保在数据随时间累积增长的任何时刻,机器学习模型的预测不确定性(以预测集形式呈现)都能以高概率满足预设的误差控制要求,即使在数据分布发生变化时也有效。
任意时间有效的共形风险控制 / Anytime-Valid Conformal Risk Control
这篇论文提出了一种新的统计方法,能够确保在数据随时间累积增长的任何时刻,机器学习模型的预测不确定性(以预测集形式呈现)都能以高概率满足预设的误差控制要求,即使在数据分布发生变化时也有效。
Talos:优化推荐系统中的Top-K准确率 / Talos: Optimizing Top-$K$ Accuracy in Recommender Systems
这篇论文提出了一种名为Talos的新型损失函数,它通过分位数技术和阈值学习来直接优化推荐系统的Top-K准确率,从而在保证高效计算的同时,有效应对数据分布变化带来的挑战。
KAGE-Bench:面向强化学习的快速已知轴视觉泛化评估基准 / KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning
这篇论文提出了一个名为KAGE-Bench的新基准测试,它通过一个可精确控制视觉变化的2D游戏环境,系统性地揭示了仅依赖像素输入的强化学习智能体在面对不同视觉变化(如背景、光照)时泛化能力会严重下降,并提供了高效的测试工具来加速相关研究。
为Gemini构建生产就绪的探针 / Building Production-Ready Probes For Gemini
这篇论文提出并测试了几种新型神经网络探针架构,以解决现有探针在长上下文等生产环境分布变化下泛化能力不足的问题,成功将其应用于谷歌前沿大模型Gemini中,以低成本高效地防范模型滥用。
思维形态:在推理任务中,数据分布比答案正确性更重要 / Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks
这篇论文发现,即使使用大模型生成的、最终答案是错误的思维链数据来训练语言模型,也能提升其推理能力,因为数据分布与模型自身更匹配,且错误答案中往往包含有价值的推理步骤。
熵比率裁剪:一种用于稳定强化学习的软全局约束 / Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
这篇论文提出了一种名为‘熵比率裁剪’的新方法,通过控制新旧策略之间熵的全局变化来稳定大语言模型的强化学习训练过程,有效解决了因策略分布偏移导致的训练不稳定问题。
DiG-Flow:基于差异引导的流匹配方法,用于构建鲁棒的视觉-语言-动作模型 / DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models
这篇论文提出了一种名为DiG-Flow的新方法,它通过计算和利用观测与动作特征之间的分布差异来引导模型训练,从而显著提升了视觉-语言-动作模型在复杂任务和场景变化下的鲁棒性和性能。
请先 登录 后再提交论文