This study presents a computational analysis of the Slovene historical newspapers \textit{Slovenec} and \textit{Slovenski narod} from the sPeriodika corpus, combining topic modelling, large language model (LLM)-based aspect-level sentiment analysis, entity-graph visualisation, and qualitative discourse analysis to examine how collective identities, political orientations, and national belonging were represented in public discourse at the turn of the twentieth century. Using BERTopic, we identify major thematic patterns and show both shared concerns and clear ideological differences between the two newspapers, reflecting their conservative-Catholic and liberal-progressive orientations. We further evaluate four instruction-following LLMs for targeted sentiment classification in OCR-degraded historical Slovene and select the Slovene-adapted GaMS3-12B-Instruct model as the most suitable for large-scale application, while also documenting important limitations, particularly its stronger performance on neutral sentiment than on positive or negative sentiment. Applied at dataset scale, the model reveals meaningful variation in the portrayal of collective identities, with some groups appearing predominantly in neutral descriptive contexts and others more often in evaluative or conflict-related discourse. We then create NER graphs to explore the relationships between collective identities and places. We apply a mixed methods approach to analyse the named entity graphs, combining quantitative network analysis with critical discourse analysis. The investigation focuses on the emergence and development of intertwined historical political and socionomic identities. Overall, the study demonstrates the value of combining scalable computational methods with critical interpretation to support digital humanities research on noisy historical newspaper data.


翻译:本研究对sPeriodika语料库中的斯洛文尼亚历史报纸《Slovenec》和《Slovenski narod》进行了计算分析,结合主题建模、基于大语言模型的方面级情感分析、实体图谱可视化和定性话语分析,探讨了20世纪之交公共话语中集体身份、政治取向和民族归属的呈现方式。利用BERTopic,我们识别出主要主题模式,并揭示了两家报纸之间的共同关注点和明显的意识形态差异,这反映了它们分别代表的保守-天主教和自由-进步取向。我们进一步评估了四种指令遵循型LLM在OCR退化的历史斯洛文尼亚语中进行目标情感分类的表现,并选取斯洛文尼亚语适配模型GaMS3-12B-Instruct作为大规模应用的最优选择,同时记录了其重要局限性,特别是对中性情感的分类性能优于对正面或负面情感的分类。在数据集规模上的应用表明,该模型揭示了集体身份描绘中的显著差异:某些群体主要出现在中性描述性语境中,而其他群体则更常出现在评价性或冲突相关的话语中。随后,我们构建命名实体识别图谱以探索集体身份与地点之间的关系,采用混合方法分析命名实体图谱,将定量网络分析与批判性话语分析相结合。研究重点关注交织的历史政治身份与社会经济身份的涌现与发展。总体而言,本研究证明了将可扩展计算方法与批判性阐释相结合,以支持针对噪声历史报纸数据的数字人文研究的价值。

0
下载
关闭预览

相关内容

如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
【论文分享】ACL 2020 细粒度情感分析方法
深度学习自然语言处理
10+阅读 · 2020年8月20日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
56+阅读 · 2014年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
3+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
3+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
3+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
56+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员