本文简要介绍ICCV2021录用论文“Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition”的主要工作。作者提出了一种多阶段多尺度注意力解码器,用于执行联合视觉语义推理,从而进一步利用语义信息。第一阶段使用视觉特征进行预测,随后的阶段使用联合视觉语义信息进行优化。

由于复杂的背景、不同的字体、不受控制的照明、扭曲和其他人为因素,最先进的文本识别框架仍然难以适应各种场景[1]。当人类面对这些挑战时,我们可以通过联合视觉语义推理来很容易地识别它们。因此,“如何开发文本识别的视觉语义推理技能”是一个重点问题。

在野外场景中,文字图像可能会模糊、扭曲或部分失真,噪声或有伪影,这使得仅使用视觉特征识别非常困难。在这种情况下,我们人类会首先尝试仅使用视觉线索来解释易于识别的字符。然后,联合处理先前已经识别的字符序列的视觉和语义信息,应用语义推理技巧对最终的文本进行解码。

成为VIP会员查看完整内容
19

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
50+阅读 · 2021年12月20日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
专知会员服务
13+阅读 · 2021年10月11日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
29+阅读 · 2021年4月14日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
4+阅读 · 2018年4月10日
Arxiv
4+阅读 · 2018年1月19日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
微信扫码咨询专知VIP会员