The rapid advancement of DNA sequencing has produced vast genomic datasets, yet interpreting and engineering genomic function remain fundamental challenges. Recent large language models have opened new avenues for genomic analysis, but existing approaches are often limited by restricted training scope, constrained generative capability, or prohibitive computational cost. We introduce GENErator, a generative genomic foundation model for long-context DNA modeling, with a context length of 98k nucleotides, pre-trained on 386 billion nucleotides of eukaryotic DNA. Without task-specific fine-tuning, GENERator exhibits strong intrinsic capabilities: unsupervised embedding analyses reveal phylogenetically coherent structure, and sequence recovery benchmarks demonstrate generative accuracy comparable to or exceeding state-of-the-art models with substantially improved computational efficiency. In a zero-shot setting, GENERator achieves competitive variant effect prediction performance relative to alignment-based methods, while remaining fully alignment-free and broadly applicable across species. With task-specific fine-tuning, the model attains leading performance on established genomic benchmarks. We further demonstrate practical generative applications. GENERator can generate protein-coding DNA sequences that translate into structurally plausible proteins and, through a prompt-guided design framework, design cis-regulatory elements with targeted activity profiles, including synthetic super-enhancers validated by high-throughput UMI-STARR-seq assays. Together, these results establish GENERator as an efficient and biologically grounded framework for genomic interpretation and programmable sequence design. Code and supplementary resources are available at https://github.com/GenerTeam/GENERator.


翻译:DNA测序技术的快速发展已产生海量基因组数据集,然而基因组功能的解析与工程化改造仍是根本性挑战。近期的大型语言模型为基因组分析开辟了新途径,但现有方法常受限于狭窄的训练范围、受限的生成能力或高昂的计算成本。本文提出GENErator,一种面向长上下文DNA建模的生成式基因组基础模型,其上下文长度达9.8万个核苷酸,并在3860亿个核苷酸的真核生物DNA上进行预训练。无需任务特异性微调,GENERator即展现出强大的内在能力:无监督嵌入分析揭示了系统发育一致的结构特征,序列恢复基准测试表明其生成精度达到或超越现有最优模型,同时计算效率显著提升。在零样本设定下,GENERator在变异效应预测任务中取得与基于比对方法相当的性能,同时保持完全无需比对的特点并具备跨物种普适性。经过任务特异性微调后,该模型在经典基因组基准测试中取得领先性能。我们进一步展示了其实用生成应用:GENERator能够生成可翻译为结构合理蛋白质的编码DNA序列,并通过提示引导的设计框架,设计具有目标活性谱的顺式调控元件(包括经高通量UMI-STARR-seq实验验证的合成超级增强子)。这些成果共同确立了GENERator作为一个高效且具有生物学基础的基因组解析与可编程序列设计框架。代码及补充资源详见 https://github.com/GenerTeam/GENERator。

0
下载
关闭预览

相关内容

大模型上下文长度扩展中的检索增强技术简述
专知会员服务
28+阅读 · 2024年7月5日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大模型上下文长度扩展中的检索增强技术简述
专知会员服务
28+阅读 · 2024年7月5日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员