Measuring the breadth of a word's meaning, or its spread across contexts, has become feasible with contextualized token embeddings. A word type can be represented as a cloud of token vectors, with dispersion-based statistics serving as proxies for contextual diversity (Nagata and Tanaka-Ishii, ACL2025). These measurements are useful for deciding appropriate sense distinctions when constructing thesauri and domain-specific dictionaries. However, when comparing the breadth of two word types, naive hypothesis testing on dispersion can be misleading: differences in semantic direction can masquerade as dispersion differences, inflating Type-I error and yielding "statistically significant" outcomes even when there is no true breadth difference. This is problematic because significance testing should distinguish genuine effects from incidental fluctuations in small-difference regimes. We propose a Householder-aligned permutation test to isolate dispersion differences from directional differences. Our method applies a single Householder reflection to align the mean directions of the two word types and then performs a permutation test on the aligned token clouds, yielding calibrated, non-parametric p-values. For practicality, we introduce a GPU-oriented implementation that batches permutations and linear algebra operations. Empirically, our alignment reduced Type-I error by 32.5% while preserving sensitivity to genuine breadth differences, and achieved a 23x speedup over the CPU baseline.


翻译:衡量词语意义的广度(即其跨语境分布范围),已通过上下文令牌嵌入技术成为可能。一个词类可表示为令牌向量的集合,基于离散度的统计量可作为语境多样性的代理指标(Nagata 与 Tanaka-Ishii,ACL2025)。这类测量在构建同义词库及领域专用词典时,对判定恰当义项区分具有实用价值。然而,在比较两个词类的语义广度时,基于离散度的朴素假设检验可能产生误导:语义方向的差异可能伪装成离散度差异,导致第一类错误膨胀,即便不存在真正的广度差异,也会得出"统计显著"的结论。这存在根本性缺陷,因为显著性检验应当区分小差异区间内真实效应与偶然波动。我们提出基于Householder对齐的置换检验方法,可将离散度差异与方向差异分离。该方法通过单次Householder反射对齐两个词类的平均方向,随后对对齐后的令牌向量集合执行置换检验,生成经校正的非参数化p值。为提升实用性,我们引入面向GPU的实现方案,将置换运算与线性代数操作进行批处理。实验表明,本方法的对齐操作在保持对真实广度差异敏感性的同时,将第一类错误降低了32.5%,并实现了较CPU基线23倍的速度提升。

0
下载
关闭预览

相关内容

【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
12+阅读 · 2025年6月3日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月9日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
12+阅读 · 2025年6月3日
相关资讯
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员