DNA-MGC+: A versatile codec for reliable and resource-efficient data storage on synthetic DNA - 专知论文

会员服务 ·

0

解码 · 合成 · 存储 · 编解码 · 编解码器 ·

DNA-MGC+: A versatile codec for reliable and resource-efficient data storage on synthetic DNA

翻译：DNA-MGC+：一种用于合成DNA上可靠且资源高效数据存储的通用编解码器

Ramy Khabbaz,Jérémy Mateos,Marc Antonini,Serge Kas Hanna

The biochemical processes underlying DNA data storage, including synthesis, amplification, and sequencing, are inherently noisy. Consequently, base-level insertion, deletion, and substitution (IDS) errors, as well as sequence-level dropouts, occur and pose major challenges for reliable data retrieval. Here we introduce DNA-MGC+, a DNA storage codec designed to enable reliable and resource-efficient data retrieval under diverse operating conditions. We evaluate DNA-MGC+ across a wide range of in silico and in vitro settings, including experiments with both Illumina and Nanopore sequencing, and show that it consistently outperforms existing codecs. In particular, DNA-MGC+ achieves simultaneous gains in sequencing depth requirements, read cost, decoding time, storage density, and error-correction capability under explicit reliability constraints. Notable results include reliable decoding under IDS error rates of up to 24% in synthetic scenarios, and reliable retrieval at sequencing depths below 3x with read costs below 3.5 bits/nt under electrochemical synthesis for both Illumina and Nanopore sequencing.

翻译：DNA数据存储所依赖的生化过程，包括合成、扩增和测序，本质上具有噪声。因此，碱基层面的插入、删除和替换错误，以及序列层面的丢失现象会发生，并对可靠的数据检索构成重大挑战。本文介绍DNA-MGC+，这是一种DNA存储编解码器，旨在多种操作条件下实现可靠且资源高效的数据检索。我们在广泛的计算机模拟和体外实验设置中评估DNA-MGC+，包括使用Illumina和Nanopore测序的实验，结果表明其性能持续优于现有编解码器。具体而言，在明确的可靠性约束下，DNA-MGC+在测序深度要求、读取成本、解码时间、存储密度和纠错能力方面同时取得增益。值得注意的结果包括：在合成场景中，能在高达24%的IDS错误率下实现可靠解码；对于Illumina和Nanopore测序，在电化学合成条件下，能在测序深度低于3倍且读取成本低于3.5比特/核苷酸时实现可靠检索。

0

相关内容

【博士论文】通过新算法与技术实现快速、准确、高效的实时基因组分析

【博士论文】通过新算法与技术实现快速、准确、高效的实时基因组分析

专知会员服务

11+阅读 · 2025年3月13日

【MIT博士论文】解开自然的复杂性:加速生命科学的机器学习，272页pdf

【MIT博士论文】解开自然的复杂性:加速生命科学的机器学习，272页pdf

专知会员服务

35+阅读 · 2023年5月1日

Nat. Commun.| 通过将异质数据集投射到一个共同的细胞嵌入空间进行在线单细胞数据整合

Nat. Commun.| 通过将异质数据集投射到一个共同的细胞嵌入空间进行在线单细胞数据整合

专知会员服务

15+阅读 · 2022年11月7日

【Nature.Mac.Intel】基于DNA调控电路的分子卷积神经网络

【Nature.Mac.Intel】基于DNA调控电路的分子卷积神经网络

专知会员服务

11+阅读 · 2022年8月7日

编码计算研究综述

编码计算研究综述

专知会员服务

22+阅读 · 2021年10月26日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

319+阅读 · 2020年7月9日

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

专知会员服务

18+阅读 · 2020年1月11日

【新书】生命科学的深度学习，238页pdf，将深度学习应用到基因组学、显微学、药物发现等领域

【新书】生命科学的深度学习，238页pdf，将深度学习应用到基因组学、显微学、药物发现等领域

专知会员服务

130+阅读 · 2019年12月28日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CVer

10+阅读 · 2019年6月22日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

Github项目推荐 | 基于 deepfakes （视频换脸）的非官方项目deepfakes_faceswap

Github项目推荐 | 基于 deepfakes （视频换脸）的非官方项目deepfakes_faceswap

AI研习社

10+阅读 · 2019年2月20日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

基于超薄二维材料纳米孔DNA测序的理论设计与研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

DNA分子机器在人血清中肿瘤标志物检测中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

RNA 5mC甲基转移酶复合物的鉴定和功能研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于表面等离子激元理论和方法的DNA计算生物芯片杂交信号研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于质谱技术的双酚A与DNA加合物检测方法的研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

DNA甲基化的继承和重编程的进化及其作用

国家自然科学基金

0+阅读 · 2015年12月31日

人类基因组DNA拷贝数变异的形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

DNA storage approaching the information-theoretic ceiling

Arxiv

0+阅读 · 4月22日

Embedded DNA Inference in In-Body Nanonetworks: Detection, Delay, and Communication Trade-Offs

Arxiv

0+阅读 · 4月14日

VT-Former: Efffcient Transformer-based Decoder for Varshamov-Tenengolts Codes

Arxiv

0+阅读 · 4月1日

SynDe: Syndrome-guided Decoding of Raw Nanopore Reads

Arxiv

0+阅读 · 4月1日

Analyzing Decoders for Quantum Error Correction

Arxiv

0+阅读 · 3月20日

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Arxiv

0+阅读 · 3月17日

CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization

Arxiv

0+阅读 · 3月12日

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Arxiv

0+阅读 · 3月11日

The DNA Coverage Depth Problem: Duality, Weight Distributions, and Applications

Arxiv

0+阅读 · 3月6日

Adaptive Sampling for Storage of Progressive Images on DNA

Arxiv

0+阅读 · 3月5日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【博士论文】通过新算法与技术实现快速、准确、高效的实时基因组分析

【博士论文】通过新算法与技术实现快速、准确、高效的实时基因组分析

专知会员服务

11+阅读 · 2025年3月13日

【MIT博士论文】解开自然的复杂性:加速生命科学的机器学习，272页pdf

【MIT博士论文】解开自然的复杂性:加速生命科学的机器学习，272页pdf

专知会员服务

35+阅读 · 2023年5月1日

Nat. Commun.| 通过将异质数据集投射到一个共同的细胞嵌入空间进行在线单细胞数据整合

Nat. Commun.| 通过将异质数据集投射到一个共同的细胞嵌入空间进行在线单细胞数据整合

专知会员服务

15+阅读 · 2022年11月7日

【Nature.Mac.Intel】基于DNA调控电路的分子卷积神经网络

【Nature.Mac.Intel】基于DNA调控电路的分子卷积神经网络

专知会员服务

11+阅读 · 2022年8月7日

编码计算研究综述

编码计算研究综述

专知会员服务

22+阅读 · 2021年10月26日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

319+阅读 · 2020年7月9日

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

【机器学习教程】生物导体MLInterfaces包到基因表达数据的应用，applications of the BioconductorMLInterfaces package to gene expression data

专知会员服务

18+阅读 · 2020年1月11日

【新书】生命科学的深度学习，238页pdf，将深度学习应用到基因组学、显微学、药物发现等领域

【新书】生命科学的深度学习，238页pdf，将深度学习应用到基因组学、显微学、药物发现等领域

专知会员服务

130+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CVer

10+阅读 · 2019年6月22日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

Github项目推荐 | 基于 deepfakes （视频换脸）的非官方项目deepfakes_faceswap

Github项目推荐 | 基于 deepfakes （视频换脸）的非官方项目deepfakes_faceswap

AI研习社

10+阅读 · 2019年2月20日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

相关论文

DNA storage approaching the information-theoretic ceiling

Arxiv

0+阅读 · 4月22日

Embedded DNA Inference in In-Body Nanonetworks: Detection, Delay, and Communication Trade-Offs

Arxiv

0+阅读 · 4月14日

VT-Former: Efffcient Transformer-based Decoder for Varshamov-Tenengolts Codes

Arxiv

0+阅读 · 4月1日

SynDe: Syndrome-guided Decoding of Raw Nanopore Reads

Arxiv

0+阅读 · 4月1日

Analyzing Decoders for Quantum Error Correction

Arxiv

0+阅读 · 3月20日

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Coded Information Retrieval for Block-Structured DNA-Based Data Storage

Arxiv

0+阅读 · 3月17日

CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization

Arxiv

0+阅读 · 3月12日

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Arxiv

0+阅读 · 3月11日

The DNA Coverage Depth Problem: Duality, Weight Distributions, and Applications

Arxiv

0+阅读 · 3月6日

Adaptive Sampling for Storage of Progressive Images on DNA

Arxiv

0+阅读 · 3月5日

相关基金

基于超薄二维材料纳米孔DNA测序的理论设计与研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

DNA分子机器在人血清中肿瘤标志物检测中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

RNA 5mC甲基转移酶复合物的鉴定和功能研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于表面等离子激元理论和方法的DNA计算生物芯片杂交信号研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于质谱技术的双酚A与DNA加合物检测方法的研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

DNA甲基化的继承和重编程的进化及其作用

国家自然科学基金

0+阅读 · 2015年12月31日

人类基因组DNA拷贝数变异的形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员