Large language models (LLMs) have significantly advanced protein representation learning. However, their capacity to interpret and design antibodies through natural language remains limited. To address this challenge, we present AFD-Instruction, the first large-scale instruction dataset with functional annotations tailored to antibodies. This dataset encompasses two key components: antibody understanding, which infers functional attributes directly from sequences, and antibody design, which enables de novo sequence generation under functional constraints. These components provide explicit sequence-function alignment and support antibody design guided by natural language instructions. Extensive instruction-tuning experiments on general-purpose LLMs demonstrate that AFD-Instruction consistently improves performance across diverse antibody-related tasks. By linking antibody sequences with textual descriptions of function, AFD-Instruction establishes a new foundation for advancing antibody modeling and accelerating therapeutic discovery.


翻译:大语言模型(LLMs)已显著推动了蛋白质表征学习。然而,它们通过自然语言解释和设计抗体的能力仍然有限。为应对这一挑战,我们提出了AFD-Instruction,这是首个针对抗体定制、具有功能注释的大规模指令数据集。该数据集包含两个关键组成部分:抗体理解(直接从序列推断功能属性)和抗体设计(在功能约束下实现从头序列生成)。这些组件提供了明确的序列-功能对齐,并支持通过自然语言指令引导的抗体设计。在通用大语言模型上进行的大量指令微调实验表明,AFD-Instruction能持续提升多种抗体相关任务的性能。通过将抗体序列与功能的文本描述联系起来,AFD-Instruction为推进抗体建模和加速治疗发现奠定了新的基础。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
大型语言模型在生物信息学中的应用综述
专知会员服务
16+阅读 · 2025年3月15日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员