讲座题目

从海量文本中构建和挖掘异构信息网络:Constructing and Mining Heterogeneous Information Networks from Massive Text

讲座简介

真实世界的数据主要以非结构化文本的形式存在。数据挖掘研究的一个重大挑战是开发有效且可伸缩的方法,将非结构化文本转换为结构化知识。根据我们的设想,将这些文本转换成结构化的异构信息网络是非常有益的,在这种网络上,可以根据用户的需要生成可操作的知识。在本教程中,我们将全面概述最近在这方面的研究和发展。首先,我们介绍了一系列有效的方法,从海量的、特定于领域的文本语料库中构建异构信息网络。然后讨论了基于用户需求挖掘文本丰富网络的方法。具体来说,我们关注的是可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法可以处理各种文本。在真实的数据集(包括新闻文章、科学出版物和产品评论)上,我们进一步展示了如何构建信息网络,以及如何帮助进一步的探索性分析。

讲座嘉宾

Jingbo Shang(尚景波),伊利诺伊大学香槟分校计算机科学系博士生。他的研究重点是用最少的人力从大量文本语料库中挖掘和构建结构化知识。他的研究获得了多项著名奖项的认可,包括Yelp数据集挑战大奖(2015)、谷歌结构化数据和数据库管理博士研究金(2017-2019)。尚先生在大型会议(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方面有丰富的经验。

成为VIP会员查看完整内容
47

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
23+阅读 · 2019年8月21日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
40+阅读 · 2019年8月18日
已删除
Arxiv
33+阅读 · 2020年3月23日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
18+阅读 · 2019年3月28日
VIP会员
最新内容
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
1+阅读 · 今天15:53
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
1+阅读 · 今天15:04
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
3+阅读 · 今天14:48
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
7+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
相关VIP内容
微信扫码咨询专知VIP会员