Motif discovery is a core problem in computational biology, traditionally formulated as a likelihood optimization task that returns a single dominant motif from a DNA sequence dataset. However, regulatory sequence data admit multiple plausible motif explanations, reflecting underlying biological heterogeneity. In this work, we frame motif discovery as a quality-diversity problem and apply the MAP-Elites algorithm to evolve position weight matrix motifs under a likelihood-based fitness objective while explicitly preserving diversity across biologically meaningful dimensions. We evaluate MAP-Elites using three complementary behavioral characterizations that capture trade-offs between motif specificity, compositional structure, coverage, and robustness. Experiments on human CTCF liver ChIP-seq data aligned to the human reference genome compare MAP-Elites against a standard motif discovery tool, MEME, under matched evaluation criteria across stratified dataset subsets. Results show that MAP-Elites recovers multiple high-quality motif variants with fitness comparable to MEME's strongest solutions while revealing structured diversity obscured by single-solution approaches.


翻译:基序发现是计算生物学中的一个核心问题,传统上被表述为一种似然优化任务,旨在从DNA序列数据集中返回单个主导基序。然而,调控序列数据允许多种合理的基序解释,这反映了潜在的生物学异质性。在本工作中,我们将基序发现构建为一个质量-多样性优化问题,并应用MAP-Elites算法,在基于似然的适应度目标下进化位置权重矩阵基序,同时明确地在具有生物学意义的维度上保持多样性。我们使用三种互补的行为特征来评估MAP-Elites,这些特征捕捉了基序特异性、组成结构、覆盖度和鲁棒性之间的权衡。在人类CTCF肝脏ChIP-seq数据(比对至人类参考基因组)上的实验,将MAP-Elites与标准基序发现工具MEME进行了比较,评估基于分层数据集子集在匹配的评估标准下进行。结果表明,MAP-Elites能够恢复多种高质量基序变体,其适应度与MEME的最优解相当,同时揭示了被单解方法所掩盖的结构化多样性。

0
下载
关闭预览

相关内容

【CMU博士论文】统计基因网络研究进展
专知会员服务
17+阅读 · 2023年10月4日
【干货书】计算基因组学,463页pdf
专知会员服务
48+阅读 · 2022年12月30日
【Java实现遗传算法】162页pdf,Genetic Algorithms in Java Basics
专知会员服务
44+阅读 · 2020年7月19日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
博客 | 基于深度学习的目标检测算法综述(二)
AI研习社
11+阅读 · 2018年8月22日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CMU博士论文】统计基因网络研究进展
专知会员服务
17+阅读 · 2023年10月4日
【干货书】计算基因组学,463页pdf
专知会员服务
48+阅读 · 2022年12月30日
【Java实现遗传算法】162页pdf,Genetic Algorithms in Java Basics
专知会员服务
44+阅读 · 2020年7月19日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员