Recent genomic foundation models largely adopt large language model architectures that treat DNA as a one-dimensional token sequence. However, exhaustive sequential reading is structurally misaligned with sparse and discontinuous genomic semantics, leading to wasted computation on low-information background and preventing understanding-driven compression for long contexts. Here, we present OpticalDNA, a vision-based framework that reframes genomic modeling as Optical Character Recognition (OCR)-style document understanding. OpticalDNA renders DNA into structured visual layouts and trains an OCR-capable vision--language model with a \emph{visual DNA encoder} and a \emph{document decoder}, where the encoder produces compact, reconstructible visual tokens for high-fidelity compression. Building on this representation, OpticalDNA defines prompt-conditioned objectives over core genomic primitives-reading, region grounding, subsequence retrieval, and masked span completion-thereby learning layout-aware DNA representations that retain fine-grained genomic information under a reduced effective token budget. Across diverse genomic benchmarks, OpticalDNA consistently outperforms recent baselines; on sequences up to 450k bases, it achieves the best overall performance with nearly $20\times$ fewer effective tokens, and surpasses models with up to $985\times$ more activated parameters while tuning only 256k \emph{trainable} parameters.


翻译:近期基因组基础模型主要采用大型语言模型架构,将DNA视为一维标记序列。然而,详尽的顺序读取在结构上与稀疏且不连续的基因组语义存在错配,导致大量计算资源浪费于低信息背景区域,并阻碍了面向理解的长上下文压缩。本文提出OpticalDNA——一种基于视觉的框架,将基因组建模重新定义为光学字符识别(OCR)式文档理解。OpticalDNA将DNA渲染为结构化视觉布局,并通过\emph{视觉DNA编码器}与\emph{文档解码器}训练具备OCR能力的视觉-语言模型,其中编码器可生成紧凑、可重构的视觉标记以实现高保真压缩。基于此表征,OpticalDNA针对核心基因组原语——序列读取、区域定位、子序列检索及掩码片段补全——定义了提示条件化目标,从而学习具有布局感知的DNA表征,在减少有效标记预算的同时保留细粒度基因组信息。在多样化基因组基准测试中,OpticalDNA持续超越近期基线模型;在长达450k碱基的序列上,它以近$20\times$更少的有效标记实现最佳综合性能,并在仅微调256k\emph{可训练}参数的情况下,超越激活参数量高达$985\times$的模型。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
北京思腾合力科技有限公司
35+阅读 · 2017年11月27日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员