I apply Schmidhuber's compression progress theory of interestingness at corpus scale, analyzing semantic novelty trajectories in more than 80,000 books spanning two centuries of English-language publishing. Using sentence-transformer paragraph embeddings and a running-centroid novelty measure, I compare 28,730 pre-1920 Project Gutenberg books (PG19) against 52,796 modern English books (Books3, approximately 1990-2010). The principal findings are fourfold. First, mean paragraph-level novelty is roughly 10% higher in modern books (0.503 vs. 0.459). Second, trajectory circuitousness -- the ratio of cumulative path length to net displacement in embedding space -- nearly doubles in the modern corpus (+67%). Third, convergent narrative curves, in which novelty declines toward a settled semantic register, are 2.3x more common in pre-1920 literature. Fourth, novelty is orthogonal to reader quality ratings (r = -0.002), suggesting that interestingness in Schmidhuber's sense is structurally independent of perceived literary merit. Clustering paragraph-level trajectories via PAA-16 representations reveals eight distinct narrative-shape archetypes whose distribution shifts substantially between eras. All analysis code and an interactive exploration toolkit are publicly available at https://bigfivekiller.online/novelty_hub.


翻译:本研究将施密德胡伯的压缩进展趣味性理论应用于语料库规模,分析了跨越两个世纪的八万余部英文出版书籍中的语义新颖性轨迹。通过使用句子转换器段落嵌入和运行质心新颖性度量,我将28,730部1920年前的古腾堡计划书籍(PG19)与52,796部现代英文书籍(Books3,约1990-2010年)进行对比。主要发现包含四个方面:首先,现代书籍的段落平均新颖性高出约10%(0.503对比0.459);其次,现代语料库中轨迹迂回度(即嵌入空间中累积路径长度与净位移之比)提升近一倍(+67%);第三,收敛型叙事曲线(即新颖性向稳定语义域递减的现象)在1920年前文学作品中出现的频率高出2.3倍;第四,新颖性与读者质量评分呈正交关系(r=-0.002),表明施密德胡伯理论框架下的趣味性与感知文学价值在结构上相互独立。通过PAA-16表征对段落级轨迹进行聚类分析,揭示了八种不同的叙事形态原型,其时代分布呈现显著差异。所有分析代码及交互式探索工具包已在https://bigfivekiller.online/novelty_hub公开提供。

0
下载
关闭预览

相关内容

【新书】百页大语言模型新书,209页pdf
专知会员服务
103+阅读 · 2025年2月4日
重磅!《大语言模型》新书出炉,人大出版,391页pdf
专知会员服务
201+阅读 · 2024年4月15日
85页pdf最新版!《大语言模型综述》
专知会员服务
174+阅读 · 2023年7月7日
【2023新书】向量语义,281页pdf
专知会员服务
103+阅读 · 2023年6月2日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
16+阅读 · 2020年5月20日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
2+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关VIP内容
【新书】百页大语言模型新书,209页pdf
专知会员服务
103+阅读 · 2025年2月4日
重磅!《大语言模型》新书出炉,人大出版,391页pdf
专知会员服务
201+阅读 · 2024年4月15日
85页pdf最新版!《大语言模型综述》
专知会员服务
174+阅读 · 2023年7月7日
【2023新书】向量语义,281页pdf
专知会员服务
103+阅读 · 2023年6月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员