arXiv ID:
2606.18961
arXiv 提交日期: 2026-06-17
成为你自己的老师:通过无监督奖励优化引导蛋白质语言模型 / Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization
1️⃣ 一句话总结
本文提出了一种无需人工标注或实验反馈的方法,让蛋白质语言模型通过自身生成的样本和内置的奖励信号(结合模型不确定性和语义一致性)进行自我优化,从而在生成具有特定功能的新蛋白质序列时,达到接近有监督方法的性能,大幅降低了生物分子设计的成本。