Digital-humanities work on semantic shift often alternates between handcrafted close readings and opaque embedding machinery. We present a reproducible expert-system style pipeline that quantifies lexical drift and its instability in the Old Bailey Corpus (1674-1913), coupling interpretable trajectories with legally meaningful axes. We bin proceedings by decade with dynamic merging for low-resource slices, train skip-gram embeddings, align spaces through orthogonal Procrustes to a 1900s anchor, and measure both geometric displacement and neighborhood turnover. We add split-half baselines and seed-sensitivity checks to separate within-bin instability from temporal change. Three visual analytics outputs (drift magnitudes, semantic trajectories, and movement along a mercy-versus-retribution axis) expose how justice, crime, poverty, and insanity evolve with penal reforms, transportation debates, and Victorian moral politics. The pipeline is implemented as auditable scripts so results can be reproduced in other historical corpora.


翻译:数字人文领域中对语义变迁的研究常游走于手工精读与不透明的嵌入模型之间。我们提出一种可复现的专家系统型流水线方法,通过将可解释的演变轨迹与具有法律意义的分析维度相结合,量化《老贝利法庭记录语料库》(1674-1913年)中词语漂移现象及其不稳定性。具体而言,我们按十年间隔划分庭审记录,对低资源切片实施动态合并策略,训练skip-gram嵌入模型,通过正交普鲁克分析将向量空间对齐至1900年代的锚点,并同时测量几何位移与邻域更新率。我们引入裂半基线检验与种子敏感性检测,以区分分箱内部波动与时间性变化。三类可视化分析产出(漂移量级、语义轨迹及沿"宽宥-惩戒"维度的运动趋势)揭示了"正义""犯罪""贫困""疯癫"等概念如何随刑罚改革、流放政策辩论及维多利亚时代道德政治变迁而演进。该流水线以可审计脚本实现,确保结果可在其他历史语料库中复现。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
迁移自适应学习最新综述,附21页论文下载
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员