Tail-Greedy Unbalanced Haar Wavelet Segmentation for Copy Number Alteration Data - 专知论文

会员服务 ·

0

分割 · 片段 · 拷贝数变异 · 贪心 · 噪声 ·

Tail-Greedy Unbalanced Haar Wavelet Segmentation for Copy Number Alteration Data

翻译：面向拷贝数变异数据的尾贪心非平衡 Haar 小波分割方法

Maharani Ahsani Ummi,Stuart Barber,Henry M. Wood,Arief Gusnanto

from arxiv, 17 pages, 9 figures

Detecting copy number alterations (CNAs) from next-generation sequencing data remains challenging, particularly for short segments under noisy conditions. Existing segmentation methods often suffer from high false positive rates or fail to reliably detect short aberrations, especially in low-coverage data. In this study, we propose a modified tail-greedy unbalanced Haar (TGUHm) method that introduces a dual-thresholding strategy to improve segmentation accuracy. The proposed approach effectively suppresses spurious spikes while preserving sensitivity to both short and long CNA segments. Extensive simulation studies under Gaussian and heavy-tailed noise demonstrate that TGUHm consistently achieves higher true positive rates and lower false positive rates compared to state-of-the-art methods, including CBS, HaarSeg, and FDRSeg. In particular, the proposed method improves detection accuracy for short segments while maintaining competitive overall performance. Application to real cancer genomic data further confirms the practical utility of the method, revealing biologically meaningful CNAs associated with known cancer-related genes. These results suggest that TGUHm provides a robust and effective framework for CNA detection in challenging sequencing settings.

翻译：从下一代测序数据中检测拷贝数变异（CNA）仍然具有挑战性，特别是在噪声条件下进行短片段检测时。现有分割方法通常存在高假阳性率的问题，或无法可靠检测短片段异常，尤其在低覆盖度数据中。本研究提出了一种改进的尾贪心非平衡 Haar（TGUHm）方法，引入双阈值策略以提升分割精度。该方案能有效抑制伪尖峰，同时保持对短和长 CNA 片段的敏感性。在服从高斯分布和重尾分布的噪声模拟实验中，TGUHm 相比 CBS、HaarSeg 和 FDRSeg 等现有最优方法，持续实现了更高的真阳性率和更低的假阳性率。特别是，该方法在保持竞争性整体性能的同时，提升了短片段的检测准确率。在真实癌症基因组数据上的应用进一步证实了其实用性，揭示了与已知癌症相关基因关联的具有生物学意义的 CNA。这些结果表明，TGUHm 为挑战性测序环境下的 CNA 检测提供了稳健且有效的框架。

0

相关内容

【NeurIPS2023教程】在分布变化下建模与利用数据异质性，128页ppt

【NeurIPS2023教程】在分布变化下建模与利用数据异质性，128页ppt

专知会员服务

42+阅读 · 2023年12月14日

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

专知会员服务

33+阅读 · 2023年6月16日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

索邦大学121页博士论文《时间序列中的无监督异常检测》

索邦大学121页博士论文《时间序列中的无监督异常检测》

专知会员服务

104+阅读 · 2022年7月25日

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

专知会员服务

24+阅读 · 2022年7月5日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

专知会员服务

87+阅读 · 2020年3月17日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

【技术分享】算法是如何更智能地发现异常商业数据的？

【技术分享】算法是如何更智能地发现异常商业数据的？

AliData

19+阅读 · 2019年8月21日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Alpha稳定分布环境下的非圆信号波达方向估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

拷贝数变异在中国遗传性耳聋人群中的分布及筛查策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

大口径平面镜子孔径拼接检测中表面中高频误差的检测误差处理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

人类基因组DNA拷贝数变异的形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列异常值探测的Bayes方法及其在GNSS动态数据处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Nonparametric Detection of Multiple Location-Scale Change Points via Wild Binary Segmentation

Arxiv

0+阅读 · 4月30日

A Framework for Variational Inference of Lightweight Bayesian Neural Networks with Heteroscedastic Uncertainties

Arxiv

0+阅读 · 4月30日

A method for detecting spatio-temporal correlation anomalies of WSN nodes based on topological information enhancement and time-frequency feature extraction

Arxiv

0+阅读 · 4月27日

Analyzing Shapley Additive Explanations to Understand Anomaly Detection Algorithm Behaviors and Their Complementarity

Arxiv

0+阅读 · 4月23日

Trends in tail dependence of heteroscedastic extremes

Arxiv

0+阅读 · 4月13日

Nonlinear Assimilation via Score-based Sequential Langevin Sampling

Arxiv

0+阅读 · 4月4日

Learning Hyperparameters via a Data-Emphasized Variational Objective

Arxiv

0+阅读 · 4月1日

An extension to reversible jump Markov chain Monte Carlo for change point problems with heterogeneous temporal dynamics

Arxiv

0+阅读 · 3月24日

Practical limitations for real-life application of data fission and data thinning in post-clustering differential analysis

Arxiv

0+阅读 · 3月20日

Heavy-Tailed and Long-Range Dependent Noise in Stochastic Approximation: A Finite-Time Analysis

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

拷贝数变异

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

8+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

6+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

8+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

5+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

8+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

6+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

4+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

5+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

13+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

8+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

7+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

15+阅读 · 7月16日

相关VIP内容

【NeurIPS2023教程】在分布变化下建模与利用数据异质性，128页ppt

【NeurIPS2023教程】在分布变化下建模与利用数据异质性，128页ppt

专知会员服务

42+阅读 · 2023年12月14日

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

【CVPR2023】视觉Transformer学习长尾数据，解决不平衡标注数据

专知会员服务

33+阅读 · 2023年6月16日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

索邦大学121页博士论文《时间序列中的无监督异常检测》

索邦大学121页博士论文《时间序列中的无监督异常检测》

专知会员服务

104+阅读 · 2022年7月25日

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

专知会员服务

24+阅读 · 2022年7月5日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

专知会员服务

87+阅读 · 2020年3月17日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

【技术分享】算法是如何更智能地发现异常商业数据的？

【技术分享】算法是如何更智能地发现异常商业数据的？

AliData

19+阅读 · 2019年8月21日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

再谈变分自编码器VAE：从贝叶斯观点出发

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

相关论文

Nonparametric Detection of Multiple Location-Scale Change Points via Wild Binary Segmentation

Arxiv

0+阅读 · 4月30日

A Framework for Variational Inference of Lightweight Bayesian Neural Networks with Heteroscedastic Uncertainties

Arxiv

0+阅读 · 4月30日

A method for detecting spatio-temporal correlation anomalies of WSN nodes based on topological information enhancement and time-frequency feature extraction

Arxiv

0+阅读 · 4月27日

Analyzing Shapley Additive Explanations to Understand Anomaly Detection Algorithm Behaviors and Their Complementarity

Arxiv

0+阅读 · 4月23日

Trends in tail dependence of heteroscedastic extremes

Arxiv

0+阅读 · 4月13日

Nonlinear Assimilation via Score-based Sequential Langevin Sampling

Arxiv

0+阅读 · 4月4日

Learning Hyperparameters via a Data-Emphasized Variational Objective

Arxiv

0+阅读 · 4月1日

An extension to reversible jump Markov chain Monte Carlo for change point problems with heterogeneous temporal dynamics

Arxiv

0+阅读 · 3月24日

Practical limitations for real-life application of data fission and data thinning in post-clustering differential analysis

Arxiv

0+阅读 · 3月20日

Heavy-Tailed and Long-Range Dependent Noise in Stochastic Approximation: A Finite-Time Analysis

Arxiv

0+阅读 · 3月20日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Alpha稳定分布环境下的非圆信号波达方向估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

拷贝数变异在中国遗传性耳聋人群中的分布及筛查策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

大口径平面镜子孔径拼接检测中表面中高频误差的检测误差处理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

人类基因组DNA拷贝数变异的形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列异常值探测的Bayes方法及其在GNSS动态数据处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员