A plethora of protein language models have been released in recent years. Yet comparatively little work has addressed how to best sample from them to optimize desired biological properties. We fill this gap by proposing a flexible, effective sampling method for masked language models (MLMs), and by systematically evaluating models and methods both in silico and in vitro on actual antibody therapeutics campaigns. Firstly, we propose sampling with stochastic beam search, exploiting the fact that MLMs are remarkably efficient at evaluating the pseudo-perplexity of the entire 1-edit neighborhood of a sequence. Reframing generation in terms of entire-sequence evaluation enables flexible guidance with multiple optimization objectives. Secondly, we report results from our extensive in vitro head-to-head evaluation for the antibody engineering setting. This reveals that choice of sampling method is at least as impactful as the model used, motivating future research into this under-explored area.


翻译:近年来,大量蛋白质语言模型被发布,但相对较少的工作探讨如何最佳地从这些模型中采样以优化所需的生物学特性。我们通过提出一种灵活、有效的掩码语言模型(MLM)采样方法,并系统地在计算机模拟和实际抗体治疗活动中评估模型与方法,填补了这一空白。首先,我们提出使用随机束搜索进行采样,利用MLM在评估序列完整1-编辑邻域的伪困惑度方面极为高效的特性。将生成过程重新框架为对整个序列的评估,使得能够灵活地结合多个优化目标进行引导。其次,我们报告了在抗体工程背景下进行的大量体外头对头评估结果。这表明采样方法的选择至少与所使用的模型同等重要,从而激励对这一尚未充分探索领域的未来研究。

0
下载
关闭预览

相关内容

蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
【NeurIPS2024】训练计算最优的蛋白质语言模型
专知会员服务
9+阅读 · 2024年11月8日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
用蛋白语言模型改进蛋白复合物预测
专知会员服务
10+阅读 · 2022年9月25日
专知会员服务
34+阅读 · 2021年8月16日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
【NeurIPS2024】训练计算最优的蛋白质语言模型
专知会员服务
9+阅读 · 2024年11月8日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
用蛋白语言模型改进蛋白复合物预测
专知会员服务
10+阅读 · 2022年9月25日
专知会员服务
34+阅读 · 2021年8月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员