How much meaning does a text carry? Shannon's theory measures uncertainty over symbols and is intentionally indifferent to meaning, while pairwise metrics such as BERTScore compare two texts rather than characterizing one. We develop a geometric framework that measures semantic content from the structure of a text's sentence embeddings. The framework has three parts. First, within a fixed embedding and baseline, six natural axioms uniquely determine a scalar measure up to scale, a frame-conditional uniqueness theorem. The resulting scalar is empirically too coarse, motivating a richer representation. Second, we propose a three-coordinate semantic profile capturing novelty (displacement from generic discourse), breadth (diversity of distinct ideas), and integration (connectedness among them), together with a discrete minimal unit (the semantic quantum) whose resolution is fixed by a clustering threshold $τ$. Third, we prove a no-go theorem: no scalar summary of the profile can simultaneously satisfy analytic stability under paraphrase and concatenation, ordinal robustness across text scales, and cross-representation comparability. We exhibit two practical scalars, $S_{\mathrm{minmax}}$ and $S_{\mathrm{rank}}$, each occupying a distinct corner of this trade-off triangle. Validation across 23 synthetic categories, 5 Project Gutenberg novels, and 3 embedding models confirms the trade-off. The recommended rank-normalized configuration passes 25 of 28 ordinal checks as point estimates (21 of 28 after Benjamini-Hochberg correction), outperforming seven baselines including unigram entropy and a BERTScore-based novelty signal. A separate variational result connects the breadth coordinate to the log-determinant of a determinantal point process (Spearman $ρ= 0.985$ over 507 Gutenberg chapters), giving an optimization-theoretic foundation for breadth.


翻译:文本承载了多少意义?香农的理论度量符号的不确定性,有意忽略意义,而BERTScore等成对度量比较两个文本而非描述单个文本。我们发展了一个几何框架,从文本句子嵌入的结构中测量语义内容。该框架包含三个部分。第一,在固定嵌入和基线内,六个自然公理唯一确定一个标量度量(仅相差一个尺度因子),即帧条件唯一性定理。所得标量在实证上过于粗糙,这激发了更丰富的表示。第二,我们提出了一个三坐标语义剖面,捕捉新颖性(与通用话语的位移)、广度(不同思想的多样性)和整合度(思想间的连通性),以及一个离散最小单元(语义量子),其分辨率由聚类阈值τ固定。第三,我们证明了一个不可行定理:剖面的任何标量摘要都无法同时满足在释义和拼接下的解析稳定性、跨文本尺度的序数鲁棒性以及跨表示的可比性。我们展示了两个实用标量,S_minmax和S_rank,每个占据该权衡三角形的不同角落。在23个合成类别、5部古腾堡计划小说和3个嵌入模型上的验证确认了该权衡。推荐的秩归一化配置在28个序数检验中通过了25个点估计(经Benjamini-Hochberg校正后为21个),优于包括单字熵和基于BERTScore的新颖性信号在内的七个基线。一个单独的变分结果将广度坐标与行列式点过程的对数行列式联系起来(在507个古腾堡章节上Spearman ρ=0.985),为广度提供了优化理论基础。

0
下载
关闭预览

相关内容

使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关资讯
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员