Large foundation models have achieved significant performance gains through scalable training on massive datasets. However, the field of \textbf{H}andwritten \textbf{M}athematical \textbf{E}xpression \textbf{R}ecognition (HMER) has been impeded by the scarcity of data, primarily due to the arduous and costly process of manual annotation. To bridge this gap, we propose a novel method integrating limited handwritten formulas with large-scale LaTeX-rendered formulas by developing a scalable data engine to generate complex and consistent LaTeX sequences. With this engine, we built the largest formula dataset to date, termed \texttt{Tex80M}, comprising over 80 million high-quality training instances. Then we propose \texttt{TexTeller}, the first HMER model trained at scale, by mix-training \texttt{Tex80M} with a relatively small HME dataset. The expansive training dataset and our refined pipeline have equipped \texttt{TexTeller} with state-of-the-art (SOTA) performance across nearly all benchmarks. To advance the field, we will openly release our complete model, entire dataset, and full codebase, enabling further research building upon our contributions.


翻译:大型基础模型通过在庞大数据集上进行可扩展训练,已取得显著的性能提升。然而,由于人工标注过程艰巨且成本高昂导致数据稀缺,**手写数学表达式识别**领域的发展一直受到阻碍。为弥补这一差距,我们提出一种新颖方法,通过开发可扩展的数据引擎来生成复杂且一致的LaTeX序列,从而将有限的手写公式与大规模LaTeX渲染公式相结合。利用该引擎,我们构建了迄今为止最大的公式数据集,命名为 \texttt{Tex80M},包含超过8000万个高质量训练样本。随后,我们通过将 \texttt{Tex80M} 与相对较小规模的手写数学表达式数据集进行混合训练,提出了首个大规模训练的HMER模型 \texttt{TexTeller}。庞大的训练数据集及我们优化的训练流程使 \texttt{TexTeller} 在几乎所有基准测试中均达到最先进的性能水平。为推动该领域发展,我们将公开完整的模型、全部数据集及完整代码库,以支持基于我们成果的进一步研究。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
25+阅读 · 2021年9月25日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员