Viruses represent the most abundant biological entities on Earth and play a pivotal role in microbial ecosystems, yet, as prominent human pathogens, they are closely linked to human morbidity and mortality. Accurate identification of viral sequences from viral genome sequences is therefore essential, but existing genome-based classification models that largely relying on composition- or frequency-based subsequence features often suffer from limited interpretability and reduced accuracy, particularly on complex or imbalanced datasets. To address these limitations, we propose GeneNSPCla (Genomic Negative Sequential Pattern-based Classification), a novel viral classification framework based on Negative Sequential Patterns (NSPs) that extracts discriminative absence-based features from nucleotide sequences of RNA viral genomes. By transforming these NSPs into numerical feature vectors and integrating them into multiple supervised classifiers, GeneNSPCla effectively captures both presence and absence signals in viral sequences. Furthermore, we propose a negative pattern mining algorithm adapted for processing genomic data: GONPM+, which can discover longer and more biologically meaningful negative sequential patterns. The experimental results demonstrate that the average accuracy of GONPM+ in 8 classifiers has improved by 10.03% compared to the original negative pattern mining algorithm and by 24.75% compared to the positive pattern mining algorithm. These findings highlight the effectiveness of incorporating absence-based sequential information, providing a new and complementary perspective for viral genome analysis and classification.


翻译:病毒是地球上最丰富的生物实体,在微生物生态系统中发挥着关键作用,同时作为重要的人类病原体,它们与人类的发病率和死亡率密切相关。因此,从病毒基因组序列中准确识别病毒序列至关重要,但现有的基于基因组的分类模型大多依赖组成或频率为基础的子序列特征,往往存在可解释性有限、准确率低的问题,尤其在处理复杂或不平衡数据集时表现不佳。为解决这些局限,我们提出GeneNSPCla(基于基因组负序模式的分类),这是一种基于负序列模式的新型病毒分类框架,能够从RNA病毒基因组的核苷酸序列中提取具有判别性的缺失特征。通过将这些NSP转化为数值特征向量并整合到多个监督分类器中,GeneNSPCla有效捕获了病毒序列中的存在信号和缺失信号。此外,我们提出一种适用于基因组数据处理的负模式挖掘算法GONPM+,该算法能发现更长且更具生物学意义的负序列模式。实验结果表明,在8个分类器中,GONPM+的平均准确率相比原始负模式挖掘算法提升了10.03%,相比正模式挖掘算法提升了24.75%。这些发现凸显了引入缺失序列信息的有效性,为病毒基因组分析与分类提供了全新的补充性视角。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
《人类表型组研究进展报告2022》全文正式发布
专知会员服务
24+阅读 · 2024年1月11日
医学知识图谱构建关键技术及研究进展
专知会员服务
45+阅读 · 2022年4月27日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
24+阅读 · 2021年3月18日
专知会员服务
28+阅读 · 2021年1月29日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
43+阅读 · 2020年7月2日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
【论文解读】“推荐系统”加上“图神经网络”
深度学习自然语言处理
16+阅读 · 2020年3月31日
Linux挖矿病毒的清除与分析
FreeBuf
14+阅读 · 2019年4月15日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【学科发展报告】生物信息学
中国自动化学会
11+阅读 · 2018年10月22日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关资讯
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
【论文解读】“推荐系统”加上“图神经网络”
深度学习自然语言处理
16+阅读 · 2020年3月31日
Linux挖矿病毒的清除与分析
FreeBuf
14+阅读 · 2019年4月15日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
【学科发展报告】生物信息学
中国自动化学会
11+阅读 · 2018年10月22日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员