This paper presents a large-scale corpus of Rakuten Travel Reviews. Our collection contains 7.29 million customer reviews for 16 years, ranging from 2009 to 2024. Each record in the dataset contains the review text, its response from an accommodation, an anonymized reviewer ID, review date, accommodation ID, plan ID, plan title, room type, room name, purpose, accompanying group, and user ratings from six aspect categories, as well as an overall score. We present statistical information about our corpus and provide insights into factors driving data drift between 2019 and 2024 using statistical approaches.


翻译:本文介绍了一个大规模的乐天旅行评论语料库。我们的收集包含了跨越16年(2009年至2024年)的729万条顾客评论。数据集中的每条记录包含评论文本、住宿方的回复、匿名评论者ID、评论日期、住宿ID、方案ID、方案标题、房间类型、房间名称、出行目的、同行人员、六个维度的用户评分以及一个总体评分。我们展示了该语料库的统计信息,并利用统计方法深入分析了2019年至2024年间导致数据漂移的因素。

0
下载
关闭预览

相关内容

天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
数据库发展研究报告(2023年),53页pdf
专知会员服务
47+阅读 · 2023年7月5日
专知会员服务
16+阅读 · 2021年9月29日
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
68+阅读 · 2020年3月13日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
【Wikidata】维基数据详解
专知
22+阅读 · 2018年4月26日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关资讯
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
68+阅读 · 2020年3月13日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
【Wikidata】维基数据详解
专知
22+阅读 · 2018年4月26日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员