Large-scale and categorical-balanced text data is essential for training effective Scene Text Recognition (STR) models, which is hard to achieve when collecting real data. Synthetic data offers a cost-effective and perfectly labeled alternative. However, its performance often lags behind, revealing a significant domain gap between real and current synthetic data. In this work, we systematically analyze mainstream rendering-based synthetic datasets and identify their key limitations: insufficient diversity in corpus, font, and layout, which restricts their realism in complex scenarios. To address these issues, we introduce UnionST, a strong data engine synthesizes text covering a union of challenging samples and better aligns with the complexity observed in the wild. We then construct UnionST-S, a large-scale synthetic dataset with improved simulations in challenging scenarios. Furthermore, we develop a self-evolution learning (SEL) framework for effective real data annotation. Experiments show that models trained on UnionST-S achieve significant improvements over existing synthetic datasets. They even surpass real-data performance in certain scenarios. Moreover, when using SEL, the trained models achieve competitive performance by only seeing 9% of real data labels.


翻译:大规模且类别均衡的文本数据对于训练有效的场景文本识别(STR)模型至关重要,这在收集真实数据时难以实现。合成数据提供了一种成本效益高且标注完美的替代方案。然而,其性能往往落后于真实数据,揭示了当前合成数据与真实数据之间存在显著领域差距。在本工作中,我们系统分析了主流的基于渲染的合成数据集,并识别出其关键局限性:语料库、字体和布局的多样性不足,这限制了它们在复杂场景中的真实性。为解决这些问题,我们提出了UnionST,这是一种强大的数据引擎,能够合成覆盖一系列挑战性样本的文本,并更好地与野外观察到的复杂性对齐。随后,我们构建了UnionST-S,这是一个在挑战性场景中具有改进模拟的大规模合成数据集。此外,我们开发了一种自进化学习(SEL)框架,用于实现有效的真实数据标注。实验表明,在UnionST-S上训练的模型相较于现有合成数据集取得了显著提升,甚至在特定场景下超越了真实数据的性能。此外,当使用SEL时,训练模型仅需观察9%的真实数据标签即可达到具有竞争力的性能。

0
下载
关闭预览

相关内容

《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
70+阅读 · 2020年6月10日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
实战经验分享-少量数据NLP场景下进行深度学习训练的建议
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
实战经验分享-少量数据NLP场景下进行深度学习训练的建议
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员