Large Protein Language Models have shown strong potential for generative protein design, yet they frequently produce structural hallucinations, generating sequences with high linguistic likelihood that fold into thermodynamically unstable conformations. Existing alignment approaches such as Direct Preference Optimization are limited in this setting, as they model preferences as binary labels and ignore the continuous structure of the physical energy landscape. We propose Physio-DPO, a physics informed alignment framework that grounds protein language models in thermodynamic stability. Physio-DPO introduces a magnitude aware objective that scales optimization updates according to the energy gap between native structures and physics perturbed hard negatives. Experiments show that Physio-DPO consistently outperforms strong baselines including SFT, PPO, and standard DPO, reducing self consistency RMSD to 1.28 Å and increasing foldability to 92.8%. Qualitative analysis further demonstrates that Physio-DPO effectively mitigates structural hallucinations by recovering biophysical interactions such as hydrophobic core packing and hydrogen bond networks.


翻译:大型蛋白质语言模型在生成式蛋白质设计中展现出巨大潜力,但它们经常产生结构幻觉,即生成具有高语言似然性但折叠成热力学不稳定构象的序列。现有的对齐方法(如直接偏好优化)在此场景中存在局限,因为它们将偏好建模为二元标签,忽略了物理能量景观的连续结构。我们提出Physio-DPO,一种基于物理信息的对齐框架,将蛋白质语言模型锚定在热力学稳定性上。Physio-DPO引入了一种幅度感知目标函数,该函数根据天然结构与物理扰动的困难负样本之间的能量差来缩放优化更新。实验表明,Physio-DPO在包括SFT、PPO和标准DPO在内的多个强基线模型中均取得更优性能,将自洽性RMSD降低至1.28 Å,并将可折叠性提升至92.8%。定性分析进一步证明,Physio-DPO通过恢复诸如疏水核心堆积和氢键网络等生物物理相互作用,有效缓解了结构幻觉。

0
下载
关闭预览

相关内容

大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
【NeurIPS2024】训练计算最优的蛋白质语言模型
专知会员服务
9+阅读 · 2024年11月8日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员