UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy - 专知论文

会员服务 ·

0

识别 · 标注 · 合成 · 数据集 · Co-training ·

UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy

翻译：UniCalli：用于汉字书法列级生成与识别的统一扩散框架

Tianshuo Xu,Kai Wang,Zhifei Chen,Leyi Wu,Tianshui Wen,Fei Chao,Ying-Cong Chen

from arxiv, Page: https://envision-research.github.io/UniCalli/

Computational replication of Chinese calligraphy remains challenging. Existing methods falter, either creating high-quality isolated characters while ignoring page-level aesthetics like ligatures and spacing, or attempting page synthesis at the expense of calligraphic correctness. We introduce \textbf{UniCalli}, a unified diffusion framework for column-level recognition and generation. Training both tasks jointly is deliberate: recognition constrains the generator to preserve character structure, while generation provides style and layout priors. This synergy fosters concept-level abstractions that improve both tasks, especially in limited-data regimes. We curated a dataset of over 8,000 digitized pieces, with ~4,000 densely annotated. UniCalli employs asymmetric noising and a rasterized box map for spatial priors, trained on a mix of synthetic, labeled, and unlabeled data. The model achieves state-of-the-art generative quality with superior ligature continuity and layout fidelity, alongside stronger recognition. The framework successfully extends to other ancient scripts, including Oracle bone inscriptions and Egyptian hieroglyphs. Code and data can be viewed in \href{https://github.com/EnVision-Research/UniCalli}{this URL}.

翻译：中文书法的计算复现仍然具有挑战性。现有方法存在不足，要么在生成高质量单字时忽略了连笔与间距等页面级美学特征，要么试图进行页面合成却牺牲了书法的正确性。我们提出了 **UniCalli**，一个用于列级识别与生成的统一扩散框架。将两项任务联合训练是经过深思熟虑的：识别任务约束生成器以保持字符结构，而生成任务则提供风格与布局先验。这种协同作用促进了概念级抽象，从而提升了两项任务的性能，尤其是在数据有限的场景下。我们整理了一个包含超过8,000件数字化作品的数据集，其中约4,000件进行了密集标注。UniCalli采用非对称噪声处理和栅格化的边界框图来获取空间先验，并在合成数据、标注数据及未标注数据的混合数据集上进行训练。该模型在生成质量上达到了最先进水平，具有更优的连笔连续性和布局保真度，同时识别能力也更强。该框架已成功扩展到其他古文字，包括甲骨文和埃及象形文字。代码和数据可在 \href{https://github.com/EnVision-Research/UniCalli}{此链接} 中查看。

0

相关内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

统一的多模态文字理解与生成大模型

统一的多模态文字理解与生成大模型

专知会员服务

30+阅读 · 2024年10月11日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

专知会员服务

64+阅读 · 2020年4月28日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

浅谈文字识别：新思考、新挑战及新机遇，华南理工大学金连文教授，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

浅谈文字识别：新思考、新挑战及新机遇，华南理工大学金连文教授，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

26+阅读 · 2019年10月24日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

如何有效提升中文NER性能？词汇增强方法总结

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

CNN与RNN中文文本分类-基于TensorFlow 实现

CNN与RNN中文文本分类-基于TensorFlow 实现

七月在线实验室

13+阅读 · 2018年10月30日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

全球人工智能

11+阅读 · 2017年11月12日

【知识图谱】中文知识图谱构建方法研究

【知识图谱】中文知识图谱构建方法研究

产业智能官

99+阅读 · 2017年10月26日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

中国画的计算机分析与分类算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

方块苗文的字信息处理关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs

Arxiv

0+阅读 · 2月18日

UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing

Arxiv

0+阅读 · 2月15日

CCiV: A Benchmark for Structure, Rhythm and Quality in LLM-Generated Chinese \textit{Ci} Poetry

Arxiv

0+阅读 · 2月15日

Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition

Arxiv

0+阅读 · 2月10日

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Arxiv

0+阅读 · 2月9日

ROSA-Tuning: Enhancing Long-Context Modeling via Suffix Matching

Arxiv

0+阅读 · 2月4日

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月2日

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Arxiv

0+阅读 · 2月2日

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

1+阅读 · 23分钟前

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

1+阅读 · 29分钟前

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

0+阅读 · 34分钟前

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

0+阅读 · 39分钟前

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

1+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

5+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

3+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

5+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

11+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

12+阅读 · 4月19日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

统一的多模态文字理解与生成大模型

统一的多模态文字理解与生成大模型

专知会员服务

30+阅读 · 2024年10月11日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

专知会员服务

64+阅读 · 2020年4月28日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

浅谈文字识别：新思考、新挑战及新机遇，华南理工大学金连文教授，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

浅谈文字识别：新思考、新挑战及新机遇，华南理工大学金连文教授，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

26+阅读 · 2019年10月24日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

如何有效提升中文NER性能？词汇增强方法总结

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

CNN与RNN中文文本分类-基于TensorFlow 实现

CNN与RNN中文文本分类-基于TensorFlow 实现

七月在线实验室

13+阅读 · 2018年10月30日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

全球人工智能

11+阅读 · 2017年11月12日

【知识图谱】中文知识图谱构建方法研究

【知识图谱】中文知识图谱构建方法研究

产业智能官

99+阅读 · 2017年10月26日

相关论文

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs

Arxiv

0+阅读 · 2月18日

UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing

Arxiv

0+阅读 · 2月15日

CCiV: A Benchmark for Structure, Rhythm and Quality in LLM-Generated Chinese \textit{Ci} Poetry

Arxiv

0+阅读 · 2月15日

Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition

Arxiv

0+阅读 · 2月10日

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Arxiv

0+阅读 · 2月9日

ROSA-Tuning: Enhancing Long-Context Modeling via Suffix Matching

Arxiv

0+阅读 · 2月4日

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月2日

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Arxiv

0+阅读 · 2月2日

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Arxiv

0+阅读 · 2月2日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

中国画的计算机分析与分类算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

方块苗文的字信息处理关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员