Fine-grained Classification of A Million Life Trajectories from Wikipedia - 专知论文

会员服务 ·

0

维基百科 · 细粒度 · 粒度 · 三元 · 三元组 ·

Fine-grained Classification of A Million Life Trajectories from Wikipedia

翻译：基于维基百科的百万条人生轨迹细粒度分类

Zhaoyang Liu,Xiaocong Du,Yixi Zhou,Ye Shi,Haipeng Zhang

Life trajectories of notable people convey essential messages for human dynamics research. These trajectories consist of (\textit{person, time, location, activity type}) tuples recording when and where a person was born, went to school, started a job, or fought in a war. However, current studies only cover limited activity types such as births and deaths, lacking large-scale fine-grained trajectories. Using a tool that extracts (\textit{person, time, location}) triples from Wikipedia, we formulate the problem of classifying these triples into 24 carefully-defined types using textual context as complementary information. The challenge is that triple entities are often scattered in noisy contexts. We use syntactic graphs to bring triple entities and relevant information closer, fusing them with text embeddings to classify life trajectory activities. Since Wikipedia text quality varies, we use LLMs to refine the text for more standardized syntactic graphs. Our framework achieves 84.5\% accuracy, surpassing baselines. We construct the largest fine-grained life trajectory dataset with 3.8 million labeled activities for 589,193 individuals spanning 3 centuries. In the end, we showcase how these trajectories can support grand narratives of human dynamics across time and space. Code/data are publicly available.

翻译：知名人物的人生轨迹为人类动力学研究提供了关键信息。这些轨迹由（人物、时间、地点、活动类型）四元组构成，记录了人物的出生、入学、任职、参战等时空节点。然而，现有研究仅涵盖出生与死亡等有限活动类型，缺乏大规模细粒度轨迹数据。借助从维基百科提取（人物、时间、地点）三元组的工具，我们提出利用文本上下文作为补充信息，将这些三元组分类至24种精确定义类型的任务。其挑战在于三元组实体常分散于噪声文本环境中。我们采用句法图拉近三元组实体与相关信息的距离，并将其与文本嵌入融合以实现人生轨迹活动分类。鉴于维基百科文本质量参差不齐，我们使用大语言模型优化文本以生成更规范的句法图。该框架取得了84.5%的分类准确率，超越基线方法。我们构建了迄今规模最大的细粒度人生轨迹数据集，包含589,193位人物跨越三个世纪的380万条标注活动记录。最后，我们展示了这些轨迹如何支撑跨时空的人类动力学宏观叙事。代码与数据已公开。

0

相关内容

维基百科

维基百科（ http://Wikipedia.org）是一个基于 Wiki 技术的全球性多语言百科全书协作项目，同时也是一部在网际网络上呈现的网络百科全书网站，其目标及宗旨是为全人类提供自由的百科全书。目前 Alexa 全球网站排名第六。

中科院计算所最新《时态数据因果发现》综述，50页pdf详述多元时间和事件序列因果发现

中科院计算所最新《时态数据因果发现》综述，50页pdf详述多元时间和事件序列因果发现

专知会员服务

86+阅读 · 2023年3月23日

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

专知会员服务

53+阅读 · 2023年2月27日

时序知识图谱表示学习

时序知识图谱表示学习

专知会员服务

154+阅读 · 2022年9月17日

南大《时间序列分析（Time Series Analysis）》课程，推荐！

南大《时间序列分析（Time Series Analysis）》课程，推荐！

专知会员服务

156+阅读 · 2022年3月31日

时空轨迹序列模式挖掘方法综述

专知会员服务

74+阅读 · 2021年4月8日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

49+阅读 · 2020年5月26日

【AAAI2020】知识图谱表示，获取和应用的综述 25页PDF A Survey on Knowledge Graphs: Representation, Acquisition and Applications

【AAAI2020】知识图谱表示，获取和应用的综述 25页PDF A Survey on Knowledge Graphs: Representation, Acquisition and Applications

专知会员服务

95+阅读 · 2020年3月29日

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

专知会员服务

40+阅读 · 2020年3月27日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知会员服务

204+阅读 · 2019年11月20日

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

专知

28+阅读 · 2022年2月18日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf

新智元

119+阅读 · 2020年3月11日

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf，547篇参考文献

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf，547篇参考文献

专知

26+阅读 · 2020年3月7日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

PaperWeekly

18+阅读 · 2019年10月28日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

中国3个阶层孩子的10年人生轨迹，结果令人震惊！读书虽苦，请让孩子对教育抱有希望！

中国3个阶层孩子的10年人生轨迹，结果令人震惊！读书虽苦，请让孩子对教育抱有希望！

德先生

10+阅读 · 2018年7月22日

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

人工智能头条

165+阅读 · 2018年7月20日

你不得不看的六篇知识图谱落地好文

你不得不看的六篇知识图谱落地好文

AI前线

29+阅读 · 2017年11月19日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

量质融合的移动轨迹相似性查询技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

几类高阶非线性行波方程的精确解,分支和复杂动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能手机的个体活动链信息获取及挖掘方法

国家自然科学基金

1+阅读 · 2014年12月31日

PersonaTrace: Synthesizing Realistic Digital Footprints with LLM Agents

Arxiv

0+阅读 · 3月12日

Chasing RATs: Tracing Reading for and as Creative Activity

Arxiv

0+阅读 · 3月11日

Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

Arxiv

0+阅读 · 3月3日

Distilling human mobility models with symbolic regression

Arxiv

0+阅读 · 2月23日

Human-Like Trajectories Generation via Receding Horizon Tracking Applied to the TickTacking Interface

Arxiv

0+阅读 · 2月19日

Bus-Conditioned Zero-Shot Trajectory Generation via Task Arithmetic

Arxiv

0+阅读 · 2月13日

Human-Like Trajectories Generation via Receding Horizon Tracking Applied to the TickTacking Interface

Arxiv

0+阅读 · 2月9日

Deep Generative Model for Human Mobility Behavior

Arxiv

0+阅读 · 2月7日

Statistical description and dimension reduction of continuous time categorical trajectories with multivariate functional principal components

Arxiv

0+阅读 · 2月5日

Trajectory Data Management and Mining: A Survey from Deep Learning to the LLM Era

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

中科院计算所最新《时态数据因果发现》综述，50页pdf详述多元时间和事件序列因果发现

中科院计算所最新《时态数据因果发现》综述，50页pdf详述多元时间和事件序列因果发现

专知会员服务

86+阅读 · 2023年3月23日

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

专知会员服务

53+阅读 · 2023年2月27日

时序知识图谱表示学习

时序知识图谱表示学习

专知会员服务

154+阅读 · 2022年9月17日

南大《时间序列分析（Time Series Analysis）》课程，推荐！

南大《时间序列分析（Time Series Analysis）》课程，推荐！

专知会员服务

156+阅读 · 2022年3月31日

时空轨迹序列模式挖掘方法综述

专知会员服务

74+阅读 · 2021年4月8日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

49+阅读 · 2020年5月26日

【AAAI2020】知识图谱表示，获取和应用的综述 25页PDF A Survey on Knowledge Graphs: Representation, Acquisition and Applications

【AAAI2020】知识图谱表示，获取和应用的综述 25页PDF A Survey on Knowledge Graphs: Representation, Acquisition and Applications

专知会员服务

95+阅读 · 2020年3月29日

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

【纽约大学】轨迹数据管理、分析和学习的综述，36页pdf，Trajectory Data Analytics

专知会员服务

40+阅读 · 2020年3月27日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知会员服务

204+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

知识图谱如何落地？Neo4j这本《知识图谱:数据业务应用》书为你讲述如何构建和使用知识图谱，87页pdf

专知

28+阅读 · 2022年2月18日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf

新智元

119+阅读 · 2020年3月11日

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf，547篇参考文献

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf，547篇参考文献

专知

26+阅读 · 2020年3月7日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

PaperWeekly

18+阅读 · 2019年10月28日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

中国3个阶层孩子的10年人生轨迹，结果令人震惊！读书虽苦，请让孩子对教育抱有希望！

中国3个阶层孩子的10年人生轨迹，结果令人震惊！读书虽苦，请让孩子对教育抱有希望！

德先生

10+阅读 · 2018年7月22日

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

人工智能头条

165+阅读 · 2018年7月20日

你不得不看的六篇知识图谱落地好文

你不得不看的六篇知识图谱落地好文

AI前线

29+阅读 · 2017年11月19日

相关论文

PersonaTrace: Synthesizing Realistic Digital Footprints with LLM Agents

Arxiv

0+阅读 · 3月12日

Chasing RATs: Tracing Reading for and as Creative Activity

Arxiv

0+阅读 · 3月11日

Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

Arxiv

0+阅读 · 3月3日

Distilling human mobility models with symbolic regression

Arxiv

0+阅读 · 2月23日

Human-Like Trajectories Generation via Receding Horizon Tracking Applied to the TickTacking Interface

Arxiv

0+阅读 · 2月19日

Bus-Conditioned Zero-Shot Trajectory Generation via Task Arithmetic

Arxiv

0+阅读 · 2月13日

Human-Like Trajectories Generation via Receding Horizon Tracking Applied to the TickTacking Interface

Arxiv

0+阅读 · 2月9日

Deep Generative Model for Human Mobility Behavior

Arxiv

0+阅读 · 2月7日

Statistical description and dimension reduction of continuous time categorical trajectories with multivariate functional principal components

Arxiv

0+阅读 · 2月5日

Trajectory Data Management and Mining: A Survey from Deep Learning to the LLM Era

Arxiv

0+阅读 · 1月31日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

量质融合的移动轨迹相似性查询技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

几类高阶非线性行波方程的精确解,分支和复杂动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能手机的个体活动链信息获取及挖掘方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员