The general trace reconstruction problem seeks to recover an original sequence from its noisy copies independently corrupted by insertions, deletions, and substitutions. This problem arises in applications such as DNA data storage, a promising storage medium due to its high information density and longevity. However, errors introduced during DNA synthesis, storage, and sequencing require correction through algorithms and codes, with trace reconstruction often used as part of data retrieval. In this work, we propose TReconLM, a decoder-only transformer that solves trace reconstruction as a next-token prediction task. TReconLM outperforms state-of-the-art trace reconstruction algorithms, including prior deep-learning approaches, recovering a substantially higher fraction of sequences without error. We pretrain on synthetic data generated from a simple error model and fine-tune on real-world data to adapt to technology-specific error patterns. Code is available at https://github.com/MLI-lab/TReconLM.


翻译:通用痕迹重建问题旨在从独立受插入、删除和替换噪声污染的副本中恢复原始序列。该问题出现在DNA数据存储等应用中,DNA作为一种有前景的存储介质,具有高信息密度和长寿命的特点。然而,DNA合成、存储和测序过程中引入的错误需要通过算法和编码进行校正,痕迹重建通常作为数据检索的一部分。在本工作中,我们提出TReconLM,一种仅解码器架构的Transformer模型,将痕迹重建视为下一个词元预测任务。TReconLM超越了现有最先进的痕迹重建算法(包括先前的深度学习方法),在无错误恢复序列的比例上显著更高。我们基于简单错误模型生成的合成数据完成预训练,并在真实世界数据上进行微调,以适应特定技术的错误模式。代码已开源:https://github.com/MLI-lab/TReconLM。

0
下载
关闭预览

相关内容

《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 26分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 28分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 40分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员