Podcasts provide highly diverse content to a massive listener base through a unique on-demand modality. However, limited data has prevented large-scale computational analysis of the podcast ecosystem. To fill this gap, we introduce a massive dataset of over 1.1M podcast transcripts that is largely comprehensive of all English language podcasts available through public RSS feeds from May and June of 2020. This data is not limited to text, but rather includes audio features and speaker turns for a subset of 370K episodes, and speaker role inferences and other metadata for all 1.1M episodes. Using this data, we also conduct a foundational investigation into the content, structure, and responsiveness of this ecosystem. Together, our data and analyses open the door to continued computational research of this popular and impactful medium.


翻译:播客通过独特的点播模式,为海量听众提供了高度多样化的内容。然而,有限的数据阻碍了对播客生态系统的大规模计算分析。为填补这一空白,我们引入了一个包含超过110万份播客转录文本的大规模数据集,该数据集基本涵盖了2020年5月至6月期间通过公共RSS源可获取的所有英语播客。这些数据不仅限于文本,还包含37万集节目的音频特征与说话人轮换信息,以及全部110万集节目的说话人角色推断与其他元数据。基于此数据,我们对该生态系统的内容、结构与响应性进行了基础性研究。我们的数据与分析共同为这一流行且具有影响力的媒介的持续计算研究开启了大门。

0
下载
关闭预览

相关内容

iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
干货 | 用 Keras 实现图书推荐系统
AI科技评论
11+阅读 · 2018年12月15日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
干货 | 用 Keras 实现图书推荐系统
AI科技评论
11+阅读 · 2018年12月15日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员