Large-scale lyric corpora present unique challenges for data-driven analysis, including the absence of reliable annotations, multilingual content, and high levels of stylistic repetition. Most existing approaches rely on supervised classification, genre labels, or coarse document-level representations, limiting their ability to uncover latent semantic structure. We present a graph-based framework for unsupervised discovery and evaluation of semantic communities in K-pop lyrics using line-level semantic representations. By constructing a similarity graph over lyric texts and applying community detection, we uncover stable micro-theme communities without genre, artist, or language supervision. We further identify boundary-spanning songs via graph-theoretic bridge metrics and analyse their structural properties. Across multiple robustness settings, boundary-spanning lyrics exhibit higher lexical diversity and lower repetition compared to core community members, challenging the assumption that hook intensity or repetition drives cross-theme connectivity. Our framework is language-agnostic and applicable to unlabeled cultural text corpora.


翻译:大规模歌词语料库为数据驱动分析带来了独特挑战,包括缺乏可靠标注、多语言内容以及高程度的风格重复。现有方法大多依赖监督分类、流派标签或粗糙的文档级表示,限制了其揭示潜在语义结构的能力。本文提出一种基于图的无监督框架,利用行级语义表示发现并评估K-pop歌词中的语义社群。通过构建歌词文本的相似度图并应用社群检测,我们在无需流派、艺人或语言监督的情况下发现了稳定的微主题社群。进一步通过图论桥接度量识别跨界歌曲,并分析其结构特性。在多种鲁棒性设置下,与核心社群成员相比,跨界歌词展现出更高的词汇多样性及更低的重复率,这对"副歌强度或重复性驱动跨主题连接"的假设提出了挑战。本框架具有语言无关性,可适用于无标注的文化文本语料库。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
小样本语义分割研究现状与分析
专知会员服务
23+阅读 · 2024年11月11日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
53+阅读 · 2019年7月23日
实战分享之专业领域词汇无监督挖掘
PaperWeekly
15+阅读 · 2019年4月16日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
53+阅读 · 2019年7月23日
实战分享之专业领域词汇无监督挖掘
PaperWeekly
15+阅读 · 2019年4月16日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员