Accurate book genre classification is fundamental to digital library organization, content discovery, and personalized recommendation. Existing approaches typically model genre prediction as a flat, single-label task, ignoring hierarchical genre structure and relying heavily on noisy, subjective user reviews, which often degrade classification reliability. We propose HiGeMine, a two-phase hierarchical genre mining framework that robustly integrates user reviews with authoritative book blurbs. In the first phase, HiGeMine employs a zero-shot semantic alignment strategy to filter reviews, retaining only those semantically consistent with the corresponding blurb, thereby mitigating noise, bias, and irrelevance. In the second phase, we introduce a dual-path, two-level graph-based classification architecture: a coarse-grained Level-1 binary classifier distinguishes fiction from non-fiction, followed by Level-2 multi-label classifiers for fine-grained genre prediction. Inter-genre dependencies are explicitly modeled using a label co-occurrence graph, while contextual representations are derived from pretrained language models applied to the filtered textual content. To facilitate systematic evaluation, we curate a new hierarchical book genre dataset. Extensive experiments demonstrate that HiGeMine consistently outperformed strong baselines across hierarchical genre classification tasks. The proposed framework offers a principled and effective solution for leveraging both structured and unstructured textual data in hierarchical book genre analysis.


翻译:准确的书籍流派分类是数字图书馆组织、内容发现与个性化推荐的基础。现有方法通常将流派预测建模为扁平的单一标签任务,忽略了分层流派结构,并严重依赖嘈杂、主观的用户评论,这往往降低了分类的可靠性。我们提出了HiGeMine,一个两阶段的分层流派挖掘框架,能够稳健地整合用户评论与权威书籍简介。在第一阶段,HiGeMine采用零样本语义对齐策略过滤评论,仅保留与对应简介语义一致的评论,从而减轻噪声、偏见和无关内容的影响。在第二阶段,我们引入了一种双路径、两层次的基于图的分类架构:粗粒度的Level-1二元分类器区分虚构与非虚构作品,随后由Level-2多标签分类器进行细粒度流派预测。流派间的依赖关系通过标签共现图显式建模,而上下文表示则通过应用于过滤后文本内容的预训练语言模型获得。为促进系统评估,我们构建了一个新的分层书籍流派数据集。大量实验表明,HiGeMine在分层流派分类任务中持续优于强基线方法。该框架为在分层书籍流派分析中利用结构化和非结构化文本数据提供了一种原则性且有效的解决方案。

0
下载
关闭预览

相关内容

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络
PaperWeekly
13+阅读 · 2020年12月18日
干货 | 用 Keras 实现图书推荐系统
AI科技评论
11+阅读 · 2018年12月15日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Google & CMU:62页PPT带你理解QANet(附下载链接)
机器学习算法与Python学习
13+阅读 · 2018年7月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员