Evaluating Morphological Plausibility of Subword Tokenization via Statistical Alignment with Morpho-Syntactic Features - 专知论文

会员服务 ·

0

切分 · 度量 · 对齐 · 特征统计 · 分形 ·

Evaluating Morphological Plausibility of Subword Tokenization via Statistical Alignment with Morpho-Syntactic Features

翻译：基于形态句法特征统计对齐评估子词切分的形态合理性

Abishek Stephen,Jindřich Libovický

from arxiv, Accepted to Findings of EACL 2026, 9 pages, 6 figures

We present a novel metric for the evaluation of the morphological plausibility of subword segmentation. Unlike the typically used morpheme boundary or retrieval F-score, which requires gold segmentation data that is either unavailable or of inconsistent quality across many languages, our approach utilizes morpho-syntactic features. These are available in resources such as Universal Dependencies or UniMorph for a much wider range of languages. The metric works by probabilistically aligning subwords with morphological features through an IBM Model 1. Our experiments show that the metric correlates well with traditional morpheme boundary recall while being more broadly applicable across languages with different morphological systems.

翻译：本文提出了一种评估子词切分形态合理性的新颖度量方法。与通常需要黄金切分数据（该数据对于许多语言要么无法获取，要么质量参差不齐）的词素边界或检索F值不同，我们的方法利用了形态句法特征。这些特征在Universal Dependencies或UniMorph等资源中可用于更广泛的语言。该度量通过IBM Model 1概率性地将子词与形态特征进行对齐。实验表明，该度量与传统词素边界召回率具有良好相关性，同时能更广泛地适用于具有不同形态系统的语言。

0

相关内容

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

句法分析前沿动态综述

专知会员服务

25+阅读 · 2020年9月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

专知会员服务

28+阅读 · 2020年2月20日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【CCL 2019】句法分析前沿动态综述，上海科技大学屠可伟博士

【CCL 2019】句法分析前沿动态综述，上海科技大学屠可伟博士

专知会员服务

26+阅读 · 2019年11月12日

一文读懂依存句法分析

一文读懂依存句法分析

AINLP

16+阅读 · 2019年4月28日

一文了解成分句法分析

一文了解成分句法分析

人工智能头条

15+阅读 · 2019年4月24日

别说还不懂依存句法分析

别说还不懂依存句法分析

人工智能头条

23+阅读 · 2019年4月8日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

赛尔原创 | 搭建基于依存句法和短语结构句法结合的金融领域事件元素抽取系统实践

赛尔原创 | 搭建基于依存句法和短语结构句法结合的金融领域事件元素抽取系统实践

哈工大SCIR

19+阅读 · 2017年12月22日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

顾及形态特征的水系自适应综合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

物体形状部分视觉显著性度量及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

平面切换微分系统的正规形及分岔

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Arxiv

0+阅读 · 2月19日

Tokens with Meaning: A Hybrid Tokenization Approach for Turkish

Arxiv

0+阅读 · 2月18日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月13日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月11日

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Arxiv

0+阅读 · 2月6日

Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation

Arxiv

0+阅读 · 2月5日

Modelling the Morphology of Verbal Paradigms: A Case Study in the Tokenization of Turkish and Hebrew

Arxiv

0+阅读 · 2月5日

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

Arxiv

0+阅读 · 2月4日

Quantization-Based Score Calibration for Few-Shot Keyword Spotting with Dynamic Time Warping in Noisy Environments

Arxiv

0+阅读 · 1月21日

Stop Taking Tokenizers for Granted: They Are Core Design Decisions in Large Language Models

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

1+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

1+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

4+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

1+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

2+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

17+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

相关VIP内容

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

句法分析前沿动态综述

专知会员服务

25+阅读 · 2020年9月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

专知会员服务

28+阅读 · 2020年2月20日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【CCL 2019】句法分析前沿动态综述，上海科技大学屠可伟博士

【CCL 2019】句法分析前沿动态综述，上海科技大学屠可伟博士

专知会员服务

26+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《通过小型无人机系统将情报能力“作战化”》

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《通用大语言模型：无人机指挥与控制接口》最新40页

相关资讯

一文读懂依存句法分析

一文读懂依存句法分析

AINLP

16+阅读 · 2019年4月28日

一文了解成分句法分析

一文了解成分句法分析

人工智能头条

15+阅读 · 2019年4月24日

别说还不懂依存句法分析

别说还不懂依存句法分析

人工智能头条

23+阅读 · 2019年4月8日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

赛尔原创 | 搭建基于依存句法和短语结构句法结合的金融领域事件元素抽取系统实践

赛尔原创 | 搭建基于依存句法和短语结构句法结合的金融领域事件元素抽取系统实践

哈工大SCIR

19+阅读 · 2017年12月22日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

相关论文

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Arxiv

0+阅读 · 2月19日

Tokens with Meaning: A Hybrid Tokenization Approach for Turkish

Arxiv

0+阅读 · 2月18日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月13日

Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment

Arxiv

0+阅读 · 2月11日

Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Arxiv

0+阅读 · 2月6日

Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation

Arxiv

0+阅读 · 2月5日

Modelling the Morphology of Verbal Paradigms: A Case Study in the Tokenization of Turkish and Hebrew

Arxiv

0+阅读 · 2月5日

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

Arxiv

0+阅读 · 2月4日

Quantization-Based Score Calibration for Few-Shot Keyword Spotting with Dynamic Time Warping in Noisy Environments

Arxiv

0+阅读 · 1月21日

Stop Taking Tokenizers for Granted: They Are Core Design Decisions in Large Language Models

Arxiv

0+阅读 · 1月19日

相关基金

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

顾及形态特征的水系自适应综合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

物体形状部分视觉显著性度量及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

平面切换微分系统的正规形及分岔

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员