Next-generation sequencing (NGS) is a key technique for studying the DNA and RNA of organisms. However, identifying quality problems in NGS data across different experimental settings remains challenging. To develop automated quality-control tools, researchers require datasets with features that capture the characteristics of quality problems. Existing NGS repositories, however, offer only a limited number of quality-related features. To address this gap, we propose a dataset derived from 37,491 NGS samples with two types of quality-related feature representations. The first type consists of 34 features derived from quality control tools (QC-34 features). The second type has a variable number of features ranging from eight to 1,183. These features were derived from read counts in problematic genomic regions identified by the ENCODE blocklist (BL features). All features describe the same human and mouse samples from five genomic assays, allowing direct comparison of feature representations. The proposed dataset includes a binary quality label, derived from automated quality control and domain experts. Among all samples, $3.2\%$ are of low quality. Supervised machine learning algorithms accurately predicted quality labels from the features, confirming the relevance of the provided feature representations. The proposed feature representations enable researchers to study how different feature types (QC-34 vs. BL features) and granularities (varying number of BL features) affect the detection of quality problems.


翻译:下一代测序(next-generation sequencing, NGS)是研究生物体DNA和RNA的关键技术。然而,在不同实验设置下识别NGS数据中的质量问题仍具挑战性。为开发自动化质量控制工具,研究人员需要具备能够捕捉质量问题特征的数据集。现有NGS数据库仅提供有限数量的质量相关特征。为填补这一空白,我们提出了一个源自37,491个NGS样本的数据集,包含两类质量相关的特征表示:第一类由质量控制工具导出的34个特征(QC-34特征)构成;第二类包含数量不等的特征(从8个到1,183个),这些特征源自ENCODE阻断清单(ENCODE blocklist)所识别的问题基因组区域的读取计数(BL特征)。所有特征均描述了来自五种基因组检测的同一批人类和小鼠样本,从而可直接比较不同特征表示。该数据集包含由自动化质控和领域专家共同导出的二元质量标签。在所有样本中,$3.2\%$为低质量样本。监督式机器学习算法能够基于这些特征准确预测质量标签,证实了所提供的特征表示的相关性。该特征表示使研究人员能够研究不同类型特征(QC-34特征与BL特征)及不同粒度(BL特征数量变化)对质量问题检测效果的影响。

0
下载
关闭预览

相关内容

数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
索邦大学121页博士论文《时间序列中的无监督异常检测》
专知会员服务
104+阅读 · 2022年7月25日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
【2022新书】生命科学的数据分析,511页pdf
专知
14+阅读 · 2022年11月15日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
在深度学习中处理不均衡数据集
极市平台
19+阅读 · 2018年11月27日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员