AntigenLM: Structure-Aware DNA Language Modeling for Influenza - 专知论文

会员服务 ·

0

结构 · 流感病毒 · 病毒 · 结构感知 · 序列 ·

AntigenLM: Structure-Aware DNA Language Modeling for Influenza

翻译：AntigenLM：面向流感病毒的结构感知DNA语言建模

Yue Pei,Xuebin Chi,Yu Kang

from arxiv, Accepted by ICLR 2026

Language models have advanced sequence analysis, yet DNA foundation models often lag behind task-specific methods for unclear reasons. We present AntigenLM, a generative DNA language model pretrained on influenza genomes with intact, aligned functional units. This structure-aware pretraining enables AntigenLM to capture evolutionary constraints and generalize across tasks. Fine-tuned on time-series hemagglutinin (HA) and neuraminidase (NA) sequences, AntigenLM accurately forecasts future antigenic variants across regions and subtypes, including those unseen during training, outperforming phylogenetic and evolution-based models. It also achieves near-perfect subtype classification. Ablation studies show that disrupting genomic structure through fragmentation or shuffling severely degrades performance, revealing the importance of preserving functional-unit integrity in DNA language modeling. AntigenLM thus provides both a powerful framework for antigen evolution prediction and a general principle for building biologically grounded DNA foundation models.

翻译：语言模型在序列分析领域取得了显著进展，然而DNA基础模型的表现往往落后于任务专用方法，其原因尚不明确。本研究提出了AntigenLM，这是一种在具有完整且对齐功能单元的流感病毒基因组上进行预训练的生成式DNA语言模型。这种结构感知的预训练使AntigenLM能够捕捉进化约束并在不同任务间实现泛化。通过在时间序列的血凝素（HA）和神经氨酸酶（NA）序列上进行微调，AntigenLM能够准确预测跨区域和亚型的未来抗原变异株，包括训练中未见过的变异株，其表现优于基于系统发育和进化的模型。该模型还实现了近乎完美的亚型分类。消融研究表明，通过片段化或重排破坏基因组结构会严重降低模型性能，这揭示了在DNA语言建模中保持功能单元完整性的重要性。因此，AntigenLM不仅为抗原进化预测提供了一个强大的框架，也为构建基于生物学原理的DNA基础模型提供了一条通用原则。

0

相关内容

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

大型语言模型在生物信息学中的应用综述

大型语言模型在生物信息学中的应用综述

专知会员服务

16+阅读 · 2025年3月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

曼彻斯特大学、Mila等 | 生物医学领域的预训练语言模型：系统综述

专知会员服务

20+阅读 · 2021年10月18日

Knowledge In PLM: 语言模型可以作为一种知识库吗？

专知会员服务

30+阅读 · 2021年6月15日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

新型细胞因子PGRN抑制A型流感病毒增殖的分子机制

国家自然科学基金

0+阅读 · 2016年12月31日

DNA水凝胶-电纺纳米纤维复合材料制备及其在核酸传感中的应用

国家自然科学基金

0+阅读 · 2016年12月31日

探讨原始抗原效应对禽类流感病毒感染及免疫应答的影响

国家自然科学基金

0+阅读 · 2015年12月31日

宿主lncRNA4调控流感病毒复制的作用机制

国家自然科学基金

0+阅读 · 2015年12月31日

MVP在甲型流感病毒诱导的细胞因子风暴中的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于基因序列的高致病性禽流感H5N1病毒抗原进化计算研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用禽双链RNA病毒感染瞬间的细胞转录组测序挖掘协助或抵抗病毒进入的基因表达调控网络

国家自然科学基金

0+阅读 · 2015年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Arxiv

0+阅读 · 3月10日

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

Arxiv

0+阅读 · 3月6日

ArgLLM-App: An Interactive System for Argumentative Reasoning with Large Language Models

Arxiv

0+阅读 · 2月27日

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Arxiv

1+阅读 · 2月19日

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Arxiv

0+阅读 · 2月17日

AgentDrug: Utilizing Large Language Models in An Agentic Workflow for Zero-Shot Molecular Editing

Arxiv

0+阅读 · 2月7日

AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

TSLM: Tree-Structured Language Modeling for Divergent Thinking

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

6+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

4+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

9+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

8+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

大型语言模型在生物信息学中的应用综述

大型语言模型在生物信息学中的应用综述

专知会员服务

16+阅读 · 2025年3月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

曼彻斯特大学、Mila等 | 生物医学领域的预训练语言模型：系统综述

专知会员服务

20+阅读 · 2021年10月18日

Knowledge In PLM: 语言模型可以作为一种知识库吗？

专知会员服务

30+阅读 · 2021年6月15日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

相关论文

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Arxiv

0+阅读 · 3月10日

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

Arxiv

0+阅读 · 3月6日

ArgLLM-App: An Interactive System for Argumentative Reasoning with Large Language Models

Arxiv

0+阅读 · 2月27日

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Arxiv

1+阅读 · 2月19日

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Arxiv

0+阅读 · 2月17日

AgentDrug: Utilizing Large Language Models in An Agentic Workflow for Zero-Shot Molecular Editing

Arxiv

0+阅读 · 2月7日

AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

TSLM: Tree-Structured Language Modeling for Divergent Thinking

Arxiv

0+阅读 · 1月30日

相关基金

新型细胞因子PGRN抑制A型流感病毒增殖的分子机制

国家自然科学基金

0+阅读 · 2016年12月31日

DNA水凝胶-电纺纳米纤维复合材料制备及其在核酸传感中的应用

国家自然科学基金

0+阅读 · 2016年12月31日

探讨原始抗原效应对禽类流感病毒感染及免疫应答的影响

国家自然科学基金

0+阅读 · 2015年12月31日

宿主lncRNA4调控流感病毒复制的作用机制

国家自然科学基金

0+阅读 · 2015年12月31日

MVP在甲型流感病毒诱导的细胞因子风暴中的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于基因序列的高致病性禽流感H5N1病毒抗原进化计算研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用禽双链RNA病毒感染瞬间的细胞转录组测序挖掘协助或抵抗病毒进入的基因表达调控网络

国家自然科学基金

0+阅读 · 2015年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员