AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design - 专知论文

会员服务 ·

0

设计 · 序列 · 数据集 · 注释（编程） · 语言模型 ·

AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design

翻译：AFD-INSTRUCTION：一个具有功能注释的综合性抗体指令数据集，用于基于大语言模型的理解与设计

Ling Luo,Wenbin Jiang,Hongyuan Chang,Xinkang Wang,Xushi Zhang,Yueting Xiong,Mengsha Tong,Rongshan Yu

from arxiv, Accepted by ICLR 2026

Large language models (LLMs) have significantly advanced protein representation learning. However, their capacity to interpret and design antibodies through natural language remains limited. To address this challenge, we present AFD-Instruction, the first large-scale instruction dataset with functional annotations tailored to antibodies. This dataset encompasses two key components: antibody understanding, which infers functional attributes directly from sequences, and antibody design, which enables de novo sequence generation under functional constraints. These components provide explicit sequence-function alignment and support antibody design guided by natural language instructions. Extensive instruction-tuning experiments on general-purpose LLMs demonstrate that AFD-Instruction consistently improves performance across diverse antibody-related tasks. By linking antibody sequences with textual descriptions of function, AFD-Instruction establishes a new foundation for advancing antibody modeling and accelerating therapeutic discovery.

翻译：大语言模型（LLMs）已显著推动了蛋白质表征学习。然而，它们通过自然语言解释和设计抗体的能力仍然有限。为应对这一挑战，我们提出了AFD-Instruction，这是首个针对抗体定制、具有功能注释的大规模指令数据集。该数据集包含两个关键组成部分：抗体理解（直接从序列推断功能属性）和抗体设计（在功能约束下实现从头序列生成）。这些组件提供了明确的序列-功能对齐，并支持通过自然语言指令引导的抗体设计。在通用大语言模型上进行的大量指令微调实验表明，AFD-Instruction能持续提升多种抗体相关任务的性能。通过将抗体序列与功能的文本描述联系起来，AFD-Instruction为推进抗体建模和加速治疗发现奠定了新的基础。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

专知会员服务

32+阅读 · 1月24日

大型语言模型在生物信息学中的应用综述

大型语言模型在生物信息学中的应用综述

专知会员服务

16+阅读 · 2025年3月15日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

蛋白质大语言模型：综述

蛋白质大语言模型：综述

专知会员服务

18+阅读 · 2025年2月26日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

12+阅读 · 2022年9月29日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

炎症介导的EGFR由内而外调节肺腺癌侵润网络构建及对抗策略

国家自然科学基金

1+阅读 · 2015年12月31日

AFF1和AFF4形成分子开关调控细胞分化

国家自然科学基金

0+阅读 · 2015年12月31日

肿瘤源性清道夫受体阳性微颗粒（ScR+MPs）介导树突状细胞耐受：甲状腺癌免疫逃逸新机制

国家自然科学基金

0+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨成像方法建立乳腺癌细胞中生长因子受体聚合与蛋白激酶活化之间的定量预测模型

国家自然科学基金

0+阅读 · 2015年12月31日

TLRs受体报告基因技术导向筛选三七免疫调节作用的物质基础及质量评价方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

TLR8对肝癌细胞的免疫调控及其靶向治疗

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

MHC多肽结合位点鉴定及超类型识别

国家自然科学基金

0+阅读 · 2015年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

DECEIVE-AFC: Adversarial Claim Attacks against Search-Enabled LLM-based Fact-Checking Systems

Arxiv

0+阅读 · 3月14日

DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning

Arxiv

0+阅读 · 3月13日

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Arxiv

0+阅读 · 2月19日

AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Arxiv

0+阅读 · 2月14日

AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field

Arxiv

0+阅读 · 2月14日

ISD-Agent-Bench: A Comprehensive Benchmark for Evaluating LLM-based Instructional Design Agents

Arxiv

0+阅读 · 2月11日

SAGE: An Agentic Explainer Framework for Interpreting SAE Features in Language Models

Arxiv

0+阅读 · 2月10日

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Arxiv

0+阅读 · 2月4日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

注释（编程）

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

专知会员服务

32+阅读 · 1月24日

大型语言模型在生物信息学中的应用综述

大型语言模型在生物信息学中的应用综述

专知会员服务

16+阅读 · 2025年3月15日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

蛋白质大语言模型：综述

蛋白质大语言模型：综述

专知会员服务

18+阅读 · 2025年2月26日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

12+阅读 · 2022年9月29日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

DECEIVE-AFC: Adversarial Claim Attacks against Search-Enabled LLM-based Fact-Checking Systems

Arxiv

0+阅读 · 3月14日

DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning

Arxiv

0+阅读 · 3月13日

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Arxiv

0+阅读 · 2月19日

AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Arxiv

0+阅读 · 2月14日

AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field

Arxiv

0+阅读 · 2月14日

ISD-Agent-Bench: A Comprehensive Benchmark for Evaluating LLM-based Instructional Design Agents

Arxiv

0+阅读 · 2月11日

SAGE: An Agentic Explainer Framework for Interpreting SAE Features in Language Models

Arxiv

0+阅读 · 2月10日

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Arxiv

0+阅读 · 2月4日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

Arxiv

0+阅读 · 1月30日

相关基金

炎症介导的EGFR由内而外调节肺腺癌侵润网络构建及对抗策略

国家自然科学基金

1+阅读 · 2015年12月31日

AFF1和AFF4形成分子开关调控细胞分化

国家自然科学基金

0+阅读 · 2015年12月31日

肿瘤源性清道夫受体阳性微颗粒（ScR+MPs）介导树突状细胞耐受：甲状腺癌免疫逃逸新机制

国家自然科学基金

0+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨成像方法建立乳腺癌细胞中生长因子受体聚合与蛋白激酶活化之间的定量预测模型

国家自然科学基金

0+阅读 · 2015年12月31日

TLRs受体报告基因技术导向筛选三七免疫调节作用的物质基础及质量评价方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

TLR8对肝癌细胞的免疫调控及其靶向治疗

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

MHC多肽结合位点鉴定及超类型识别

国家自然科学基金

0+阅读 · 2015年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员