Towards Personalized Bangla Book Recommendation: A Large-Scale Multi-Entity Book Graph Dataset - 专知论文

会员服务 ·

0

图书 · 数据集 · 基准 · 实体 · 结构 ·

Towards Personalized Bangla Book Recommendation: A Large-Scale Multi-Entity Book Graph Dataset

翻译：面向个性化孟加拉语图书推荐：一个大规模多实体图书图数据集

Rahin Arefin Ahmed,Md. Anik Chowdhury,Sakil Ahmed Sheikh Reza,Devnil Bhattacharjee,Muhammad Abdullah Adnan,Nafis Sadeq

Personalized book recommendation in Bangla literature has been constrained by the lack of structured, large-scale, and publicly available datasets. This work introduces RokomariBG, a large-scale, multi-entity heterogeneous book graph dataset designed to support research on personalized recommendation in a low-resource language setting. The dataset comprises 127,302 books, 63,723 users, 16,601 authors, 1,515 categories, 2,757 publishers, and 209,602 reviews, connected through eight relation types and organized as a comprehensive knowledge graph. To demonstrate the utility of the dataset, we provide a systematic benchmarking study on the Top-N recommendation task, evaluating a diverse set of representative recommendation models, including classical collaborative filtering methods, matrix factorization models, content-based approaches, graph neural networks, a hybrid matrix factorization model with side information, and a neural two-tower retrieval architecture. The benchmarking results highlight the importance of leveraging multi-relational structure and textual side information, with neural retrieval models achieving the strongest performance (NDCG@10 = 0.204). Overall, this work establishes a foundational benchmark and a publicly available resource for Bangla book recommendation research, enabling reproducible evaluation and future studies on recommendation in low-resource cultural domains. The dataset and code are publicly available at https://github.com/backlashblitz/Bangla-Book-Recommendation-Dataset

翻译：孟加拉语文学的个性化图书推荐一直受限于缺乏结构化、大规模且公开可用的数据集。本研究介绍了RokomariBG，一个大规模、多实体异构图图书数据集，旨在支持低资源语言环境下个性化推荐的研究。该数据集包含127,302本图书、63,723名用户、16,601位作者、1,515个类别、2,757家出版社以及209,602条评论，通过八种关系类型相互连接，并组织成一个综合知识图谱。为展示该数据集的实用性，我们在Top-N推荐任务上进行了系统性基准测试，评估了多种代表性推荐模型，包括经典协同过滤方法、矩阵分解模型、基于内容的方法、图神经网络、结合辅助信息的混合矩阵分解模型以及神经双塔检索架构。基准测试结果凸显了利用多关系结构和文本辅助信息的重要性，其中神经检索模型取得了最佳性能（NDCG@10 = 0.204）。总体而言，本研究为孟加拉语图书推荐研究建立了基础性基准和公开可用的资源，支持低资源文化领域推荐系统的可复现评估与未来研究。数据集与代码已公开于https://github.com/backlashblitz/Bangla-Book-Recommendation-Dataset

0

相关内容

图书

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

43+阅读 · 2025年4月16日

大规模语言模型的个性化：综述

大规模语言模型的个性化：综述

专知会员服务

43+阅读 · 2024年11月4日

重磅！《大语言模型》新书出炉，人大出版，391页pdf

重磅！《大语言模型》新书出炉，人大出版，391页pdf

专知会员服务

201+阅读 · 2024年4月15日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

265+阅读 · 2023年8月4日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知会员服务

70+阅读 · 2022年8月20日

【经典书】Python地理信息数据分析，362页pdf

【经典书】Python地理信息数据分析，362页pdf

专知会员服务

90+阅读 · 2022年7月4日

【杜克-Bhuwan Dhingra】语言模型即知识图谱，46页ppt

【杜克-Bhuwan Dhingra】语言模型即知识图谱，46页ppt

专知会员服务

67+阅读 · 2021年11月15日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

199+阅读 · 2020年2月1日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

70+阅读 · 2019年5月17日

一文教你构建图书推荐系统【附代码】

一文教你构建图书推荐系统【附代码】

机器学习算法与Python学习

10+阅读 · 2018年9月16日

【新数据集】亚马逊Kindle电子书和纸质图书销售排行数据(61000本书，2亿数据点)

【新数据集】亚马逊Kindle电子书和纸质图书销售排行数据(61000本书，2亿数据点)

专知

13+阅读 · 2018年7月2日

【干货】一文教你构建图书推荐系统（附代码）

【干货】一文教你构建图书推荐系统（附代码）

专知

28+阅读 · 2018年4月19日

自然语言处理数据集免费资源开放（附学习资料）

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

17+阅读 · 2017年10月2日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

Semantic Novelty Trajectories in 80,000 Books: A Cross-Corpus Embedding Analysis

Arxiv

0+阅读 · 3月2日

A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment

Arxiv

0+阅读 · 2月26日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 2月22日

BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization

Arxiv

0+阅读 · 2月18日

Bengali-Loop: Community Benchmarks for Long-Form Bangla ASR and Speaker Diarization

Arxiv

0+阅读 · 2月15日

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

Arxiv

0+阅读 · 2月10日

Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

4+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

【新书】使用大型语言模型进行数据分析：文本、表格、图像与音频

专知会员服务

43+阅读 · 2025年4月16日

大规模语言模型的个性化：综述

大规模语言模型的个性化：综述

专知会员服务

43+阅读 · 2024年11月4日

重磅！《大语言模型》新书出炉，人大出版，391页pdf

重磅！《大语言模型》新书出炉，人大出版，391页pdf

专知会员服务

201+阅读 · 2024年4月15日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

265+阅读 · 2023年8月4日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知会员服务

70+阅读 · 2022年8月20日

【经典书】Python地理信息数据分析，362页pdf

【经典书】Python地理信息数据分析，362页pdf

专知会员服务

90+阅读 · 2022年7月4日

【杜克-Bhuwan Dhingra】语言模型即知识图谱，46页ppt

【杜克-Bhuwan Dhingra】语言模型即知识图谱，46页ppt

专知会员服务

67+阅读 · 2021年11月15日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

199+阅读 · 2020年2月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

70+阅读 · 2019年5月17日

一文教你构建图书推荐系统【附代码】

一文教你构建图书推荐系统【附代码】

机器学习算法与Python学习

10+阅读 · 2018年9月16日

【新数据集】亚马逊Kindle电子书和纸质图书销售排行数据(61000本书，2亿数据点)

【新数据集】亚马逊Kindle电子书和纸质图书销售排行数据(61000本书，2亿数据点)

专知

13+阅读 · 2018年7月2日

【干货】一文教你构建图书推荐系统（附代码）

【干货】一文教你构建图书推荐系统（附代码）

专知

28+阅读 · 2018年4月19日

自然语言处理数据集免费资源开放（附学习资料）

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

17+阅读 · 2017年10月2日

相关论文

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

Semantic Novelty Trajectories in 80,000 Books: A Cross-Corpus Embedding Analysis

Arxiv

0+阅读 · 3月2日

A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment

Arxiv

0+阅读 · 2月26日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 2月22日

BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization

Arxiv

0+阅读 · 2月18日

Bengali-Loop: Community Benchmarks for Long-Form Bangla ASR and Speaker Diarization

Arxiv

0+阅读 · 2月15日

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

Arxiv

0+阅读 · 2月10日

Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

Arxiv

0+阅读 · 2月6日

相关基金

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员