arXiv ID:
2602.16173
从人类反馈中学习个性化智能体 / Learning Personalized Agents from Human Feedback
1️⃣ 一句话总结
这篇论文提出了一个名为PAHF的框架,让AI智能体能够通过与用户的实时互动,持续学习和适应每个用户独特且可能变化的个人偏好,从而提供更贴心的服务。
从人类反馈中学习个性化智能体 / Learning Personalized Agents from Human Feedback
这篇论文提出了一个名为PAHF的框架,让AI智能体能够通过与用户的实时互动,持续学习和适应每个用户独特且可能变化的个人偏好,从而提供更贴心的服务。
从深度增长到循环:大语言模型中迭代计算的统一视角 / From Growing to Looping: A Unified View of Iterative Computation in LLMs
这篇论文发现,让大语言模型通过‘深度增长’(训练时由浅入深)和‘循环’(推理时重复使用某些层)两种方式提升推理能力,其背后的工作机制本质上是相同的,都是通过一种迭代计算过程来实现,并且这两种方法可以相互结合,进一步放大效果。
扩散模型中的误差传播与模型崩溃:一项理论研究 / Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study
这篇论文从理论上分析了扩散模型在反复使用自身生成的合成数据进行训练时,其生成质量会如何因误差累积而逐渐恶化,并揭示了这种‘模型崩溃’现象在不同训练数据配比下的变化规律。
增强扩散采样:利用扩散模型实现高效稀有事件采样与自由能计算 / Enhanced Diffusion Sampling: Efficient Rare Event Sampling and Free Energy Calculation with Diffusion Models
这篇论文提出了一种名为‘增强扩散采样’的新方法,通过结合扩散模型与精确的偏置采样技术,高效解决了分子模拟中稀有事件(如蛋白质折叠)的采样难题,从而能够快速、准确地计算自由能等关键物理量。
从观察到的排名中学习偏好 / Learning Preference from Observed Rankings
这篇论文提出了一种新方法,通过分析消费者对商品的排名数据来学习他们的个人偏好,并解决了数据中常见的‘热门商品曝光偏差’问题,从而能更准确地预测消费者对新产品的购买行为。
ReMoRa:基于精细化运动表征的多模态大语言模型,用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
这篇论文提出了一种名为ReMoRa的新模型,它通过直接处理视频压缩后的运动表征而非大量原始图像帧,高效地解决了多模态大模型理解长视频时计算量过大的难题,并在多个长视频理解测试中取得了领先效果。
Adam和Muon优化器在平滑齐次神经网络上的隐式偏好 / The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks
这篇论文通过理论分析和实验证明,在训练结构特殊的神经网络时,不同的动量优化算法(如Adam、Muon)会隐式地引导模型朝着不同几何意义上的“最优解”收敛,从而影响最终模型的性能。
基于二次优化退火因子分解机的RNA逆折叠研究及二进制编码与核苷酸分配评估 / Factorization Machine with Quadratic-Optimization Annealing for RNA Inverse Folding and Evaluation of Binary-Integer Encoding and Nucleotide Assignment
本研究提出了一种利用二次优化退火因子分解机(FMQA)高效设计特定结构RNA序列的新方法,并通过系统比较不同编码和核苷酸分配方案,发现特定编码策略能显著提升所得RNA序列的结构稳定性。
RefineFormer3D:通过自适应多尺度Transformer与交叉注意力融合实现高效3D医学图像分割 / RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion
这篇论文提出了一种名为RefineFormer3D的轻量级3D医学图像分割模型,它通过创新的高效模块设计,在保持高精度的同时大幅减少了计算量和内存占用,使其更适合在临床环境中实际部署。
RIDER:基于强化学习引导扩散模型的3D RNA逆向设计 / RIDER: 3D RNA Inverse Design with Reinforcement Learning-Guided Diffusion
这篇论文提出了一种名为RIDER的新方法,它利用强化学习来指导扩散模型,直接根据目标三维结构来设计RNA序列,从而大幅提升了生成结构的准确性,并找到了与天然序列不同的新设计。
请先 登录 后再提交论文