GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently - 专知论文

会员服务 ·

0

图像生成 · 合成 · 绘制 · 图像合成 · 生成模型 ·

2023 年 3 月 31 日

GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently

翻译：标题：GlyphDraw：学习在图像合成模型中连贯绘制汉字

Jian Ma,Mingjun Zhao,Chen Chen,Ruichen Wang,Di Niu,Haonan Lu,Xiaodong Lin

from arxiv, 24 pages, 5 figures

Recent breakthroughs in the field of language-guided image generation have yielded impressive achievements, enabling the creation of high-quality and diverse images based on user instructions. Although the synthesis performance is fascinating, one significant limitation of current image generation models is their insufficient ability to generate coherent text within images, particularly for complex glyph structures like Chinese characters. To address this problem, we introduce GlyphDraw, a general learning framework aiming at endowing image generation models with the capacity to generate images embedded with coherent text. To the best of our knowledge, this is the first work in the field of image synthesis to address the generation of Chinese characters. % we first adopt the OCR technique to collect images with Chinese characters as training samples, and extract the text and locations as auxiliary information. We first sophisticatedly design the image-text dataset's construction strategy, then build our model specifically on a diffusion-based image generator and carefully modify the network structure to allow the model to learn drawing Chinese characters with the help of glyph and position information. Furthermore, we maintain the model's open-domain image synthesis capability by preventing catastrophic forgetting by using a variety of training techniques. Extensive qualitative and quantitative experiments demonstrate that our method not only produces accurate Chinese characters as in prompts, but also naturally blends the generated text into the background. Please refer to https://1073521013.github.io/glyph-draw.github.io

翻译：摘要：语言引导图像生成领域的最新突破取得了令人瞩目的成果，使得能够根据用户指令创建高质量且多样化的图像。尽管合成性能令人惊叹，但当前图像生成模型的一个显著局限是其在图像中生成连贯文本的能力不足，尤其是对于汉字等复杂字形结构。为解决这一问题，我们提出GlyphDraw，一个旨在赋予图像生成模型生成嵌入连贯文本图像能力的通用学习框架。据我们所知，这是图像合成领域首个解决汉字生成问题的工作。我们首先精心设计了图像-文本数据集的构建策略，随后基于扩散图像生成器构建模型，并仔细修改网络结构，使模型能够借助字形和位置信息学习绘制汉字。此外，我们通过多种训练技术防止灾难性遗忘，从而保持模型的开放域图像合成能力。大量定性和定量实验表明，我们的方法不仅能够生成与提示中一致的准确汉字，还能将生成的文本自然融入背景。请参阅 https://1073521013.github.io/glyph-draw.github.io

1

相关内容

图像生成

视频自监督学习综述

视频自监督学习综述

专知会员服务

53+阅读 · 2022年7月5日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

专知会员服务

20+阅读 · 2022年3月3日

不可错过! CMU CMU《高级自然语言处理》结课了，附课件与视频

不可错过! CMU CMU《高级自然语言处理》结课了，附课件与视频

专知会员服务

73+阅读 · 2021年10月4日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

专知会员服务

25+阅读 · 2020年7月28日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

专知会员服务

14+阅读 · 2019年11月17日

扩散模型生成带汉字图像，一键输出表情包：OPPO等提出GlyphDraw

扩散模型生成带汉字图像，一键输出表情包：OPPO等提出GlyphDraw

机器之心

0+阅读 · 2023年4月10日

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

PaperWeekly

0+阅读 · 2022年9月8日

生成对抗网络GANs学习路线

生成对抗网络GANs学习路线

专知

37+阅读 · 2019年6月10日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

语音及情感语义同步的三维人脸可视化：从发声器官到外观

国家自然科学基金

3+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微拟球藻中C2H2型锌指蛋白对三脂酰甘油合成途径的调控机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

冰毒成瘾者精神异常神经机制的多模态fMRI研究

国家自然科学基金

0+阅读 · 2013年12月31日

长春花生物碱生物合成受钾元素调控的代谢和分子基础

国家自然科学基金

0+阅读 · 2013年12月31日

EIF2α在血管性认知功能障碍与突触可塑性损伤中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

新型厚套筒Z箍缩负载初始等离子体的行为特征及其形成机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉感知启发的对象发现技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于合成样本和MCE准则下判别学习的汉字手写文本识别研究

国家自然科学基金

0+阅读 · 2009年12月31日

Deepfake Text Detection in the Wild

Arxiv

0+阅读 · 2023年5月22日

DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models

Arxiv

0+阅读 · 2023年5月22日

A One-Class Classifier for the Detection of GAN Manipulated Multi-Spectral Satellite Images

Arxiv

0+阅读 · 2023年5月19日

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Arxiv

1+阅读 · 2023年5月19日

T-former: An Efficient Transformer for Image Inpainting

Arxiv

0+阅读 · 2023年5月19日

DiffUTE: Universal Text Editing Diffusion Model

Arxiv

0+阅读 · 2023年5月19日

Data Redaction from Conditional Generative Models

Arxiv

0+阅读 · 2023年5月18日

TextDiffuser: Diffusion Models as Text Painters

Arxiv

0+阅读 · 2023年5月18日

Listen, Think, and Understand

Arxiv

0+阅读 · 2023年5月18日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

VIP会员

文章信息

相关主题

最新内容

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

专知会员服务

10+阅读 · 6月27日

2025年全球二十起重大无人机作战事件

2025年全球二十起重大无人机作战事件

专知会员服务

4+阅读 · 6月27日

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

5+阅读 · 6月27日

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

5+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

8+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

15+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

8+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

7+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

9+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

相关VIP内容

视频自监督学习综述

视频自监督学习综述

专知会员服务

53+阅读 · 2022年7月5日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

【香港中文大学】基于Aspect的情感分析综述论文，A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges

专知会员服务

20+阅读 · 2022年3月3日

不可错过! CMU CMU《高级自然语言处理》结课了，附课件与视频

不可错过! CMU CMU《高级自然语言处理》结课了，附课件与视频

专知会员服务

73+阅读 · 2021年10月4日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

专知会员服务

25+阅读 · 2020年7月28日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

专知会员服务

14+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

2025年全球二十起重大无人机作战事件

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

现代战争的隐蔽系统：伊朗战争十大启示

相关资讯

扩散模型生成带汉字图像，一键输出表情包：OPPO等提出GlyphDraw

扩散模型生成带汉字图像，一键输出表情包：OPPO等提出GlyphDraw

机器之心

0+阅读 · 2023年4月10日

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

ECCV 2022 | 底层视觉新任务：Blind Image Decomposition

PaperWeekly

0+阅读 · 2022年9月8日

生成对抗网络GANs学习路线

生成对抗网络GANs学习路线

专知

37+阅读 · 2019年6月10日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

相关论文

Deepfake Text Detection in the Wild

Arxiv

0+阅读 · 2023年5月22日

DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models

Arxiv

0+阅读 · 2023年5月22日

A One-Class Classifier for the Detection of GAN Manipulated Multi-Spectral Satellite Images

Arxiv

0+阅读 · 2023年5月19日

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Arxiv

1+阅读 · 2023年5月19日

T-former: An Efficient Transformer for Image Inpainting

Arxiv

0+阅读 · 2023年5月19日

DiffUTE: Universal Text Editing Diffusion Model

Arxiv

0+阅读 · 2023年5月19日

Data Redaction from Conditional Generative Models

Arxiv

0+阅读 · 2023年5月18日

TextDiffuser: Diffusion Models as Text Painters

Arxiv

0+阅读 · 2023年5月18日

Listen, Think, and Understand

Arxiv

0+阅读 · 2023年5月18日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

相关基金

语音及情感语义同步的三维人脸可视化：从发声器官到外观

国家自然科学基金

3+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微拟球藻中C2H2型锌指蛋白对三脂酰甘油合成途径的调控机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

冰毒成瘾者精神异常神经机制的多模态fMRI研究

国家自然科学基金

0+阅读 · 2013年12月31日

长春花生物碱生物合成受钾元素调控的代谢和分子基础

国家自然科学基金

0+阅读 · 2013年12月31日

EIF2α在血管性认知功能障碍与突触可塑性损伤中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

新型厚套筒Z箍缩负载初始等离子体的行为特征及其形成机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉感知启发的对象发现技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于合成样本和MCE准则下判别学习的汉字手写文本识别研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员