TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling - 专知论文

会员服务 ·

0

序列 · 生物 · 生物启发 · 启发式 · 结构 ·

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

翻译：TrinityDNA：一种面向高效长序列DNA建模的生物启发式基础模型

Qirong Yang,Yucheng Guo,Zicheng Liu,Yujie Yang,Qijin Yin,Siyuan Li,Shaomin Ji,Linlin Chao,Xiaoming Zhang,Stan Z. Li

from arxiv, AAAI 2026

The modeling of genomic sequences presents unique challenges due to their length and structural complexity. Traditional sequence models struggle to capture long-range dependencies and biological features inherent in DNA. In this work, we propose TrinityDNA, a novel DNA foundational model designed to address these challenges. The model integrates biologically informed components, including Groove Fusion for capturing DNA's structural features and Gated Reverse Complement (GRC) to handle the inherent symmetry of DNA sequences. Additionally, we introduce a multi-scale attention mechanism that allows the model to attend to varying levels of sequence dependencies, and an evolutionary training strategy that progressively adapts the model to both prokaryotic and eukaryotic genomes. TrinityDNA provides a more accurate and efficient approach to genomic sequence modeling, offering significant improvements in gene function prediction, regulatory mechanism discovery, and other genomics applications. Our model bridges the gap between machine learning techniques and biological insights, paving the way for more effective analysis of genomic data. Additionally, we introduced a new DNA long-sequence CDS annotation benchmark to make evaluations more comprehensive and oriented toward practical applications.

翻译：基因组序列建模因其长度和结构复杂性而面临独特挑战。传统序列模型难以捕捉DNA固有的长程依赖性和生物学特征。本研究提出TrinityDNA——一种新型DNA基础模型，旨在应对这些挑战。该模型整合了生物信息启发的组件：包括捕获DNA结构特征的沟槽融合模块，以及处理DNA序列固有对称性的门控反向互补模块。此外，我们引入了多尺度注意力机制，使模型能够关注不同层级的序列依赖关系；并提出进化式训练策略，使模型逐步适应原核与真核基因组。TrinityDNA为基因组序列建模提供了更精准高效的解决方案，在基因功能预测、调控机制发现等基因组学应用中实现显著性能提升。该模型弥合了机器学习技术与生物学洞见之间的鸿沟，为基因组数据的更有效分析开辟了新途径。同时，我们构建了新的DNA长序列CDS注释基准测试，使评估体系更全面且更贴近实际应用需求。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

【斯坦福博士论文】使用结构化状态空间对序列建模，330页pdf

【斯坦福博士论文】使用结构化状态空间对序列建模，330页pdf

专知会员服务

53+阅读 · 2023年7月13日

最新综述：速览Transformer长文本建模研究进展

最新综述：速览Transformer长文本建模研究进展

专知会员服务

46+阅读 · 2023年3月15日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

41+阅读 · 2020年11月18日

生物数据挖掘中的深度学习，诺丁汉特伦特大学

生物数据挖掘中的深度学习，诺丁汉特伦特大学

专知会员服务

68+阅读 · 2020年3月5日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

专知

15+阅读 · 2020年4月28日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

一文看懂AutoEncoder模型演进图谱

一文看懂AutoEncoder模型演进图谱

AINLP

12+阅读 · 2019年6月17日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

长链非编码RNA识别及其功能挖掘方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于超薄二维材料纳米孔DNA测序的理论设计与研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

荧光铜纳米粒的发卡型DNA模板设计和应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于DNA条形码技术研究泰国北部两栖类生物多样性

国家自然科学基金

0+阅读 · 2015年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Arxiv

0+阅读 · 3月17日

DNA-MGC+: A versatile codec for reliable and resource-efficient data storage on synthetic DNA

Arxiv

0+阅读 · 3月15日

Adaptive Sampling for Storage of Progressive Images on DNA

Arxiv

0+阅读 · 3月5日

TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes

Arxiv

0+阅读 · 2月22日

SPATIA: Multimodal Generation and Prediction of Spatial Cell Phenotypes

Arxiv

0+阅读 · 2月16日

LLM DNA: Tracing Model Evolution via Functional Representations

Arxiv

0+阅读 · 2月15日

BrainSymphony: A parameter-efficient multimodal foundation model for brain dynamics with limited data

Arxiv

0+阅读 · 2月12日

Robust Composite DNA Storage under Sampling Randomness, Substitution, and Insertion-Deletion Errors

Arxiv

0+阅读 · 2月12日

AntigenLM: Structure-Aware DNA Language Modeling for Influenza

Arxiv

0+阅读 · 2月9日

TerraBind: Fast and Accurate Binding Affinity Prediction through Coarse Structural Representations

Arxiv

0+阅读 · 2月8日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

11+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

【斯坦福博士论文】使用结构化状态空间对序列建模，330页pdf

【斯坦福博士论文】使用结构化状态空间对序列建模，330页pdf

专知会员服务

53+阅读 · 2023年7月13日

最新综述：速览Transformer长文本建模研究进展

最新综述：速览Transformer长文本建模研究进展

专知会员服务

46+阅读 · 2023年3月15日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

41+阅读 · 2020年11月18日

生物数据挖掘中的深度学习，诺丁汉特伦特大学

生物数据挖掘中的深度学习，诺丁汉特伦特大学

专知会员服务

68+阅读 · 2020年3月5日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

专知

15+阅读 · 2020年4月28日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

一文看懂AutoEncoder模型演进图谱

一文看懂AutoEncoder模型演进图谱

AINLP

12+阅读 · 2019年6月17日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

相关论文

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Arxiv

0+阅读 · 3月17日

DNA-MGC+: A versatile codec for reliable and resource-efficient data storage on synthetic DNA

Arxiv

0+阅读 · 3月15日

Adaptive Sampling for Storage of Progressive Images on DNA

Arxiv

0+阅读 · 3月5日

TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes

Arxiv

0+阅读 · 2月22日

SPATIA: Multimodal Generation and Prediction of Spatial Cell Phenotypes

Arxiv

0+阅读 · 2月16日

LLM DNA: Tracing Model Evolution via Functional Representations

Arxiv

0+阅读 · 2月15日

BrainSymphony: A parameter-efficient multimodal foundation model for brain dynamics with limited data

Arxiv

0+阅读 · 2月12日

Robust Composite DNA Storage under Sampling Randomness, Substitution, and Insertion-Deletion Errors

Arxiv

0+阅读 · 2月12日

AntigenLM: Structure-Aware DNA Language Modeling for Influenza

Arxiv

0+阅读 · 2月9日

TerraBind: Fast and Accurate Binding Affinity Prediction through Coarse Structural Representations

Arxiv

0+阅读 · 2月8日

相关基金

长链非编码RNA识别及其功能挖掘方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于超薄二维材料纳米孔DNA测序的理论设计与研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

荧光铜纳米粒的发卡型DNA模板设计和应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于DNA条形码技术研究泰国北部两栖类生物多样性

国家自然科学基金

0+阅读 · 2015年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员