Rethinking Genomic Modeling Through Optical Character Recognition - 专知论文

会员服务 ·

0

序列 · 光学字符识别 · 识别 · 结构 · OCR ·

Rethinking Genomic Modeling Through Optical Character Recognition

翻译：重新思考基因组建模：基于光学字符识别的方法

Hongxin Xiang,Pengsen Ma,Yunkang Cao,Di Yu,Haowen Chen,Xinyu Yang,Xiangxiang Zeng

Recent genomic foundation models largely adopt large language model architectures that treat DNA as a one-dimensional token sequence. However, exhaustive sequential reading is structurally misaligned with sparse and discontinuous genomic semantics, leading to wasted computation on low-information background and preventing understanding-driven compression for long contexts. Here, we present OpticalDNA, a vision-based framework that reframes genomic modeling as Optical Character Recognition (OCR)-style document understanding. OpticalDNA renders DNA into structured visual layouts and trains an OCR-capable vision--language model with a \emph{visual DNA encoder} and a \emph{document decoder}, where the encoder produces compact, reconstructible visual tokens for high-fidelity compression. Building on this representation, OpticalDNA defines prompt-conditioned objectives over core genomic primitives-reading, region grounding, subsequence retrieval, and masked span completion-thereby learning layout-aware DNA representations that retain fine-grained genomic information under a reduced effective token budget. Across diverse genomic benchmarks, OpticalDNA consistently outperforms recent baselines; on sequences up to 450k bases, it achieves the best overall performance with nearly $20\times$ fewer effective tokens, and surpasses models with up to $985\times$ more activated parameters while tuning only 256k \emph{trainable} parameters.

翻译：近期基因组基础模型主要采用大型语言模型架构，将DNA视为一维标记序列。然而，详尽的顺序读取在结构上与稀疏且不连续的基因组语义存在错配，导致大量计算资源浪费于低信息背景区域，并阻碍了面向理解的长上下文压缩。本文提出OpticalDNA——一种基于视觉的框架，将基因组建模重新定义为光学字符识别（OCR）式文档理解。OpticalDNA将DNA渲染为结构化视觉布局，并通过\emph{视觉DNA编码器}与\emph{文档解码器}训练具备OCR能力的视觉-语言模型，其中编码器可生成紧凑、可重构的视觉标记以实现高保真压缩。基于此表征，OpticalDNA针对核心基因组原语——序列读取、区域定位、子序列检索及掩码片段补全——定义了提示条件化目标，从而学习具有布局感知的DNA表征，在减少有效标记预算的同时保留细粒度基因组信息。在多样化基因组基准测试中，OpticalDNA持续超越近期基线模型；在长达450k碱基的序列上，它以近$20\times$更少的有效标记实现最佳综合性能，并在仅微调256k\emph{可训练}参数的情况下，超越激活参数量高达$985\times$的模型。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

专知会员服务

31+阅读 · 2025年11月9日

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

专知会员服务

75+阅读 · 2022年11月22日

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

专知会员服务

23+阅读 · 2022年10月9日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

专知会员服务

30+阅读 · 2019年9月20日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

北京思腾合力科技有限公司

35+阅读 · 2017年11月27日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习与超CpG分割的人类全基因组差异甲基化研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

视网膜光感受器凋亡后的光遗传学重建

国家自然科学基金

0+阅读 · 2014年12月31日

面向基因组相关性研究的迁移学习理论与方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge

Arxiv

0+阅读 · 3月1日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月24日

Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling

Arxiv

0+阅读 · 2月17日

Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology

Arxiv

0+阅读 · 2月15日

OmniScience: A Large-scale Multi-modal Dataset for Scientific Image Understanding

Arxiv

0+阅读 · 2月14日

Chatting with Images for Introspective Visual Thinking

Arxiv

0+阅读 · 2月12日

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Arxiv

0+阅读 · 2月12日

EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs

Arxiv

0+阅读 · 2月6日

Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation

Arxiv

0+阅读 · 2月6日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

光学字符识别

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

5+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

6+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

14+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

15+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

【斯坦福博士论文】多模态基础模型：从科学理解到科学发现

专知会员服务

31+阅读 · 2025年11月9日

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

【2022新书】深度学习基因组学:生命科学和生物技术中基因组学应用的数据驱动方法

专知会员服务

75+阅读 · 2022年11月22日

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

专知会员服务

23+阅读 · 2022年10月9日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

专知会员服务

30+阅读 · 2019年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

北京思腾合力科技有限公司

35+阅读 · 2017年11月27日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge

Arxiv

0+阅读 · 3月1日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月24日

Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling

Arxiv

0+阅读 · 2月17日

Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology

Arxiv

0+阅读 · 2月15日

OmniScience: A Large-scale Multi-modal Dataset for Scientific Image Understanding

Arxiv

0+阅读 · 2月14日

Chatting with Images for Introspective Visual Thinking

Arxiv

0+阅读 · 2月12日

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Arxiv

0+阅读 · 2月12日

EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs

Arxiv

0+阅读 · 2月6日

Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation

Arxiv

0+阅读 · 2月6日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

相关基金

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习与超CpG分割的人类全基因组差异甲基化研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

视网膜光感受器凋亡后的光遗传学重建

国家自然科学基金

0+阅读 · 2014年12月31日

面向基因组相关性研究的迁移学习理论与方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员