LogogramNLP：面向NLP的古代语标文字系统视觉与文本表征对比 (LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP) - 专知论文

会员服务 ·

0

NLP · 系统 · 分析 · 语言处理 · 符号化 ·

LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP

翻译：LogogramNLP：面向NLP的古代语标文字系统视觉与文本表征对比

Danlu Chen,Freda Shi,Aditi Agarwal,Jacobo Myerston,Taylor Berg-Kirkpatrick

from arxiv, correct wrong refs, typos

Standard natural language processing (NLP) pipelines operate on symbolic representations of language, which typically consist of sequences of discrete tokens. However, creating an analogous representation for ancient logographic writing systems is an extremely labor intensive process that requires expert knowledge. At present, a large portion of logographic data persists in a purely visual form due to the absence of transcription -- this issue poses a bottleneck for researchers seeking to apply NLP toolkits to study ancient logographic languages: most of the relevant data are images of writing. This paper investigates whether direct processing of visual representations of language offers a potential solution. We introduce LogogramNLP, the first benchmark enabling NLP analysis of ancient logographic languages, featuring both transcribed and visual datasets for four writing systems along with annotations for tasks like classification, translation, and parsing. Our experiments compare systems that employ recent visual and text encoding strategies as backbones. The results demonstrate that visual representations outperform textual representations for some investigated tasks, suggesting that visual processing pipelines may unlock a large amount of cultural heritage data of logographic languages for NLP-based analyses.

翻译：标准的自然语言处理（NLP）流程基于语言的符号化表征进行操作，这种表征通常由离散标记序列构成。然而，为古代语标文字系统创建类似的表征是一个极其耗费人力的过程，需要专业知识。目前，由于缺乏转写，大量语标数据仍以纯粹的视觉形式存在——这一问题为寻求应用NLP工具包研究古代语标语言的研究人员带来了瓶颈：大部分相关数据是文字的图像。本文探讨直接处理语言的视觉表征是否提供了一种潜在的解决方案。我们介绍了LogogramNLP，这是首个支持对古代语标语言进行NLP分析的基准，包含四种文字系统的转写与视觉数据集，以及分类、翻译和解析等任务的标注。我们的实验比较了采用近期视觉与文本编码策略作为骨干的系统。结果表明，对于部分研究任务，视觉表征的表现优于文本表征，这表明视觉处理流程可能为基于NLP的分析解锁大量语标语言的文化遗产数据。

0

相关内容

NLP

NLP:自然语言处理

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

专知会员服务

35+阅读 · 2023年11月5日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

专知会员服务

106+阅读 · 2021年6月12日

认知智能大门，企业如何构建NLP能力，18页pdf

专知会员服务

52+阅读 · 2021年5月21日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

78+阅读 · 2020年8月13日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

专知会员服务

26+阅读 · 2019年11月7日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

【2019 北京智源大会】Recent Breakthroughs in Natural Language Processing（NLP的最新突破） Christopher Manning / 斯坦福人工智能实验室（SAIL）负责人

【2019 北京智源大会】Recent Breakthroughs in Natural Language Processing（NLP的最新突破） Christopher Manning / 斯坦福人工智能实验室（SAIL）负责人

专知会员服务

10+阅读 · 2019年11月1日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

自然语言处理NLP之旅（NLP文章/代码集锦）

自然语言处理NLP之旅（NLP文章/代码集锦）

专知

28+阅读 · 2019年8月6日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

NLP入门+实战必读：一文教会你最常见的10种自然语言处理技术（附代码）

NLP入门+实战必读：一文教会你最常见的10种自然语言处理技术（附代码）

大数据文摘

22+阅读 · 2017年11月9日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Arxiv

0+阅读 · 2月19日

Foundations and Evaluations in NLP

Arxiv

0+阅读 · 2月13日

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Arxiv

0+阅读 · 2月11日

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Arxiv

0+阅读 · 2月9日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Arxiv

0+阅读 · 2月2日

NAG: A Unified Native Architecture for Encoder-free Text-Graph Modeling in Language Models

Arxiv

0+阅读 · 1月30日

SciNUP: Natural Language User Interest Profiles for Scientific Literature Recommendation

Arxiv

0+阅读 · 1月23日

MultiLexNorm++: A Unified Benchmark and a Generative Model for Lexical Normalization for Asian Languages

Arxiv

0+阅读 · 1月23日

Vision-Language Models Align with Human Neural Representations in Concept Processing

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

最新内容

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

专知会员服务

2+阅读 · 今天16:00

美军“数据2030”概念设想：数字化杀伤链统一标准

美军“数据2030”概念设想：数字化杀伤链统一标准

专知会员服务

1+阅读 · 今天15:32

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

2+阅读 · 今天15:08

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

1+阅读 · 今天14:54

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

2+阅读 · 今天14:51

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

1+阅读 · 今天14:47

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

1+阅读 · 今天14:34

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

1+阅读 · 今天14:22

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

1+阅读 · 今天14:06

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

1+阅读 · 今天14:03

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

4+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

6+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

9+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

4+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

3+阅读 · 今天3:12

相关VIP内容

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

专知会员服务

35+阅读 · 2023年11月5日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

专知会员服务

106+阅读 · 2021年6月12日

认知智能大门，企业如何构建NLP能力，18页pdf

专知会员服务

52+阅读 · 2021年5月21日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

78+阅读 · 2020年8月13日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

【EMNLP 2019】Discreteness in Neural Natural Language Processing，神经自然语言处理中的离散性，附303页PPT免费下载

专知会员服务

26+阅读 · 2019年11月7日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

【2019 北京智源大会】Recent Breakthroughs in Natural Language Processing（NLP的最新突破） Christopher Manning / 斯坦福人工智能实验室（SAIL）负责人

【2019 北京智源大会】Recent Breakthroughs in Natural Language Processing（NLP的最新突破） Christopher Manning / 斯坦福人工智能实验室（SAIL）负责人

专知会员服务

10+阅读 · 2019年11月1日

热门VIP内容

开通专知VIP会员享更多权益服务

美军“数据2030”概念设想：数字化杀伤链统一标准

前沿军事人工智能系统的理解与控制（报告1.8万字）

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

相关资讯

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

自然语言处理NLP之旅（NLP文章/代码集锦）

自然语言处理NLP之旅（NLP文章/代码集锦）

专知

28+阅读 · 2019年8月6日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

NLP入门+实战必读：一文教会你最常见的10种自然语言处理技术（附代码）

NLP入门+实战必读：一文教会你最常见的10种自然语言处理技术（附代码）

大数据文摘

22+阅读 · 2017年11月9日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

相关论文

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Arxiv

0+阅读 · 2月19日

Foundations and Evaluations in NLP

Arxiv

0+阅读 · 2月13日

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Arxiv

0+阅读 · 2月11日

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Arxiv

0+阅读 · 2月9日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Arxiv

0+阅读 · 2月2日

NAG: A Unified Native Architecture for Encoder-free Text-Graph Modeling in Language Models

Arxiv

0+阅读 · 1月30日

SciNUP: Natural Language User Interest Profiles for Scientific Literature Recommendation

Arxiv

0+阅读 · 1月23日

MultiLexNorm++: A Unified Benchmark and a Generative Model for Lexical Normalization for Asian Languages

Arxiv

0+阅读 · 1月23日

Vision-Language Models Align with Human Neural Representations in Concept Processing

Arxiv

0+阅读 · 1月22日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员