[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器 - 专知VIP

会员服务 ·

1

ICCV 2021 · 文本识别 · 联合视觉语义推理 · 论文 ·

2021 年 11 月 28 日

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文简要介绍ICCV2021录用论文“Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition”的主要工作。作者提出了一种多阶段多尺度注意力解码器，用于执行联合视觉语义推理，从而进一步利用语义信息。第一阶段使用视觉特征进行预测，随后的阶段使用联合视觉语义信息进行优化。

由于复杂的背景、不同的字体、不受控制的照明、扭曲和其他人为因素，最先进的文本识别框架仍然难以适应各种场景[1]。当人类面对这些挑战时，我们可以通过联合视觉语义推理来很容易地识别它们。因此，“如何开发文本识别的视觉语义推理技能”是一个重点问题。

在野外场景中，文字图像可能会模糊、扭曲或部分失真，噪声或有伪影，这使得仅使用视觉特征识别非常困难。在这种情况下，我们人类会首先尝试仅使用视觉线索来解释易于识别的字符。然后，联合处理先前已经识别的字符序列的视觉和语义信息，应用语义推理技巧对最终的文本进行解码。

成为VIP会员查看完整内容

19

相关内容

ICCV 2021

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICCV 2021】OadTR框架：基于Transformers的在线行为检测任务

专知会员服务

10+阅读 · 2021年9月11日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

专知

19+阅读 · 2020年5月24日

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

极市平台

24+阅读 · 2019年11月20日

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

AI科技评论

9+阅读 · 2019年10月22日

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

极市平台

5+阅读 · 2019年8月28日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

腾讯数平精准推荐 | OCR技术之检测篇

腾讯数平精准推荐 | OCR技术之检测篇

机器学习研究会

13+阅读 · 2018年3月17日

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

机器之心

5+阅读 · 2018年3月1日

PortaSpeech: Portable and High-Quality Generative Text-to-Speech

Arxiv

0+阅读 · 2022年1月30日

Improving Emotional Speech Synthesis by Using SUS-Constrained VAE and Text Encoder Aggregation

Arxiv

0+阅读 · 2022年1月28日

Multi-View Self-Attention Based Transformer for Speaker Recognition

Arxiv

0+阅读 · 2022年1月27日

Human Pose Regression with Residual Log-likelihood Estimation

Arxiv

4+阅读 · 2021年7月26日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Arxiv

4+阅读 · 2020年3月27日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Understanding disentangling in $β$-VAE

Arxiv

4+阅读 · 2018年4月10日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

VIP会员

相关主题

联合视觉语义推理

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

3+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

4+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

3+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

2+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICCV 2021】OadTR框架：基于Transformers的在线行为检测任务

专知会员服务

10+阅读 · 2021年9月11日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

专知

19+阅读 · 2020年5月24日

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

极市平台

24+阅读 · 2019年11月20日

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

AI科技评论

9+阅读 · 2019年10月22日

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

极市平台

5+阅读 · 2019年8月28日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

腾讯数平精准推荐 | OCR技术之检测篇

腾讯数平精准推荐 | OCR技术之检测篇

机器学习研究会

13+阅读 · 2018年3月17日

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

机器之心

5+阅读 · 2018年3月1日

相关论文

PortaSpeech: Portable and High-Quality Generative Text-to-Speech

Arxiv

0+阅读 · 2022年1月30日

Improving Emotional Speech Synthesis by Using SUS-Constrained VAE and Text Encoder Aggregation

Arxiv

0+阅读 · 2022年1月28日

Multi-View Self-Attention Based Transformer for Speaker Recognition

Arxiv

0+阅读 · 2022年1月27日

Human Pose Regression with Residual Log-likelihood Estimation

Arxiv

4+阅读 · 2021年7月26日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Arxiv

4+阅读 · 2020年3月27日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Understanding disentangling in $β$-VAE

Arxiv

4+阅读 · 2018年4月10日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

微信扫码咨询专知VIP会员