In contrast to their word- or sentence-level counterparts, character embeddings are still poorly understood. We aim at closing this gap with an in-depth study of English character embeddings. For this, we use resources from research on grapheme-color synesthesia -- a neuropsychological phenomenon where letters are associated with colors, which give us insight into which characters are similar for synesthetes and how characters are organized in color space. Comparing 10 different character embeddings, we ask: How similar are character embeddings to a synesthete's perception of characters? And how similar are character embeddings extracted from different models? We find that LSTMs agree with humans more than transformers. Comparing across tasks, grapheme-to-phoneme conversion results in the most human-like character embeddings. Finally, ELMo embeddings differ from both humans and other models.


翻译:与文字或句级的对应方相比, 字符嵌入仍不甚清楚。 我们的目标是通过深入研究英语字符嵌入来缩小这一差距。 为此, 我们使用关于石墨色合成研究的资源, 这是一种神经心理现象, 字母与颜色相关, 使我们能洞察到哪些字符与协同相近, 以及字符在颜色空间中如何组织。 比较了10个不同的字符嵌入, 我们问 : 字符嵌入与同步的字符嵌入如何相似? 和从不同模型中提取的字符嵌入有多相似? 我们发现 LSTMs 同意人比变异器更多。 比较任务, 石墨对语音转换导致最像人类的字符嵌入。 最后, ELM 嵌入与人类和其他模型不同 。

0
下载
关闭预览

相关内容

【DeepMind】无归一化的高性能大规模图像识别
专知会员服务
9+阅读 · 2021年2月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
11+阅读 · 2019年7月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Arxiv
0+阅读 · 2021年3月18日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
5+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
18+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
10+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
Top
微信扫码咨询专知VIP会员