An Imbalanced Dataset with Multiple Feature Representations for Studying Quality Control of Next-Generation Sequencing - 专知论文

会员服务 ·

0

特征表示 · 表示 · 数据集 · 样本 · 质量控制 ·

An Imbalanced Dataset with Multiple Feature Representations for Studying Quality Control of Next-Generation Sequencing

翻译：面向下一代测序质量控制的具有多重特征表示的不平衡数据集

Philipp Röchner,Clarissa Krämer,Johannes U Mayer,Franz Rothlauf,Steffen Albrecht,Maximilian Sprang

Next-generation sequencing (NGS) is a key technique for studying the DNA and RNA of organisms. However, identifying quality problems in NGS data across different experimental settings remains challenging. To develop automated quality-control tools, researchers require datasets with features that capture the characteristics of quality problems. Existing NGS repositories, however, offer only a limited number of quality-related features. To address this gap, we propose a dataset derived from 37,491 NGS samples with two types of quality-related feature representations. The first type consists of 34 features derived from quality control tools (QC-34 features). The second type has a variable number of features ranging from eight to 1,183. These features were derived from read counts in problematic genomic regions identified by the ENCODE blocklist (BL features). All features describe the same human and mouse samples from five genomic assays, allowing direct comparison of feature representations. The proposed dataset includes a binary quality label, derived from automated quality control and domain experts. Among all samples, $3.2\%$ are of low quality. Supervised machine learning algorithms accurately predicted quality labels from the features, confirming the relevance of the provided feature representations. The proposed feature representations enable researchers to study how different feature types (QC-34 vs. BL features) and granularities (varying number of BL features) affect the detection of quality problems.

翻译：下一代测序(next-generation sequencing, NGS)是研究生物体DNA和RNA的关键技术。然而，在不同实验设置下识别NGS数据中的质量问题仍具挑战性。为开发自动化质量控制工具，研究人员需要具备能够捕捉质量问题特征的数据集。现有NGS数据库仅提供有限数量的质量相关特征。为填补这一空白，我们提出了一个源自37,491个NGS样本的数据集，包含两类质量相关的特征表示：第一类由质量控制工具导出的34个特征(QC-34特征)构成；第二类包含数量不等的特征(从8个到1,183个)，这些特征源自ENCODE阻断清单(ENCODE blocklist)所识别的问题基因组区域的读取计数(BL特征)。所有特征均描述了来自五种基因组检测的同一批人类和小鼠样本，从而可直接比较不同特征表示。该数据集包含由自动化质控和领域专家共同导出的二元质量标签。在所有样本中，$3.2\%$为低质量样本。监督式机器学习算法能够基于这些特征准确预测质量标签，证实了所提供的特征表示的相关性。该特征表示使研究人员能够研究不同类型特征(QC-34特征与BL特征)及不同粒度(BL特征数量变化)对质量问题检测效果的影响。

0

相关内容

特征表示

数据质量维度的实践展开：一项综述

数据质量维度的实践展开：一项综述

专知会员服务

20+阅读 · 2025年7月28日

深度学习在人类基因组学中的应用：下一代测序数据的综述

深度学习在人类基因组学中的应用：下一代测序数据的综述

专知会员服务

17+阅读 · 2023年9月2日

索邦大学121页博士论文《时间序列中的无监督异常检测》

索邦大学121页博士论文《时间序列中的无监督异常检测》

专知会员服务

104+阅读 · 2022年7月25日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

41+阅读 · 2020年11月18日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

319+阅读 · 2020年7月9日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

【2022新书】生命科学的数据分析，511页pdf

【2022新书】生命科学的数据分析，511页pdf

专知

14+阅读 · 2022年11月15日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

在深度学习中处理不均衡数据集

在深度学习中处理不均衡数据集

极市平台

19+阅读 · 2018年11月27日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验

国家自然科学基金

0+阅读 · 2015年12月31日

蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的构建

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

Asymptotically Optimal Codes for Correcting Burst Deletions and Insertions in Labeled DNA Sequences

Arxiv

0+阅读 · 6月12日

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

Arxiv

0+阅读 · 5月14日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Evaluating the Quality of the Quantified Uncertainty for (Re)Calibration of Data-Driven Regression Models

Arxiv

0+阅读 · 4月22日

Motif Diversity in Human Liver ChIP-seq Data Using MAP-Elites

Arxiv

0+阅读 · 4月20日

Optimal multiple testing under family-wise error control: elementary symmetric polynomials and a scalable algorithm

Arxiv

0+阅读 · 4月13日

Version Control System for Data with MatrixOne

Arxiv

0+阅读 · 4月5日

DisQ: A Model of Distributed Quantum Processors (Extended Version)

Arxiv

0+阅读 · 4月3日

Uncertainty-Guided Label Rebalancing for CPS Safety Monitoring

Arxiv

0+阅读 · 3月26日

NextSense: A Semi-Synthetic Sensing Data generation Platform

Arxiv

0+阅读 · 3月21日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

数据质量维度的实践展开：一项综述

数据质量维度的实践展开：一项综述

专知会员服务

20+阅读 · 2025年7月28日

深度学习在人类基因组学中的应用：下一代测序数据的综述

深度学习在人类基因组学中的应用：下一代测序数据的综述

专知会员服务

17+阅读 · 2023年9月2日

索邦大学121页博士论文《时间序列中的无监督异常检测》

索邦大学121页博士论文《时间序列中的无监督异常检测》

专知会员服务

104+阅读 · 2022年7月25日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

最新《深度学习序列标记》综述论文，16页pdf134篇参考文献

专知会员服务

41+阅读 · 2020年11月18日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

319+阅读 · 2020年7月9日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

【2022新书】生命科学的数据分析，511页pdf

【2022新书】生命科学的数据分析，511页pdf

专知

14+阅读 · 2022年11月15日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

在深度学习中处理不均衡数据集

在深度学习中处理不均衡数据集

极市平台

19+阅读 · 2018年11月27日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

相关论文

Asymptotically Optimal Codes for Correcting Burst Deletions and Insertions in Labeled DNA Sequences

Arxiv

0+阅读 · 6月12日

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

Arxiv

0+阅读 · 5月14日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Evaluating the Quality of the Quantified Uncertainty for (Re)Calibration of Data-Driven Regression Models

Arxiv

0+阅读 · 4月22日

Motif Diversity in Human Liver ChIP-seq Data Using MAP-Elites

Arxiv

0+阅读 · 4月20日

Optimal multiple testing under family-wise error control: elementary symmetric polynomials and a scalable algorithm

Arxiv

0+阅读 · 4月13日

Version Control System for Data with MatrixOne

Arxiv

0+阅读 · 4月5日

DisQ: A Model of Distributed Quantum Processors (Extended Version)

Arxiv

0+阅读 · 4月3日

Uncertainty-Guided Label Rebalancing for CPS Safety Monitoring

Arxiv

0+阅读 · 3月26日

NextSense: A Semi-Synthetic Sensing Data generation Platform

Arxiv

0+阅读 · 3月21日

相关基金

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验

国家自然科学基金

0+阅读 · 2015年12月31日

蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的构建

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员