Free Access to World News: Reconstructing Full-Text Articles from GDELT - 专知论文

会员服务 ·

0

新闻 · 工具 · 语料 · 语料库 · 事件 ·

Free Access to World News: Reconstructing Full-Text Articles from GDELT

翻译：免费获取全球新闻：基于GDELT重构全文新闻报道

A. Fronzetti Colladon,R. Vestrelli

News data have become essential resources across various disciplines. Still, access to full-text news corpora remains challenging due to high costs and the limited availability of free alternatives. This paper presents a novel Python package (gdeltnews) that reconstructs full-text newspaper articles at near-zero cost by leveraging the Global Database of Events, Language, and Tone (GDELT) Web News NGrams 3.0 dataset. Our method merges overlapping n-grams extracted from global online news to rebuild complete articles. We validate the approach on a benchmark set of 2211 articles from major U.S. news outlets, achieving up to 95% text similarity against original articles based on Levenshtein and SequenceMatcher metrics. Our tool facilitates economic forecasting, computational social science, information science, and natural language processing applications by enabling free and large-scale access to full-text news data.

翻译：新闻数据已成为多学科领域的重要资源。然而，由于高昂的成本及免费替代方案的稀缺，获取全文新闻语料库仍面临挑战。本文提出了一种新颖的Python工具包（gdeltnews），通过利用全球事件、语言与语调数据库（GDELT）的Web新闻NGrams 3.0数据集，以近乎零成本的方式重构报纸全文报道。该方法通过合并从全球在线新闻中提取的重叠n-gram片段来重建完整文章。我们在来自美国主要新闻机构的2211篇基准文章上验证了该方法，基于Levenshtein距离和SequenceMatcher指标，重构文本与原始文章的相似度最高可达95%。该工具通过提供免费的大规模全文新闻数据访问，为经济预测、计算社会科学、信息科学及自然语言处理等应用领域提供了便利。

0

相关内容

新闻，是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体，是反映时代的一种文体。新闻概念有广义与狭义之分。广义上：除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻，包括消息、通讯、特写、速写（有的将速写纳入特写之列）等等； [3] 狭义上：消息是用概括的叙述方式，以较简明扼要的文字，迅速及时地报道附近新近发生的、有价值的事实，使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分，后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

57+阅读 · 2023年10月16日

《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文

《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文

专知会员服务

63+阅读 · 2023年8月27日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

【2023新书】Twitter挖掘的21个秘诀:从混乱的数据中提取丰富的信息

【2023新书】Twitter挖掘的21个秘诀:从混乱的数据中提取丰富的信息

专知会员服务

61+阅读 · 2023年7月18日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

【实用书-Mannning】相关搜索—使用Solr和Elasticsearch，360页pdf

【实用书-Mannning】相关搜索—使用Solr和Elasticsearch，360页pdf

专知会员服务

32+阅读 · 2020年4月16日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知会员服务

59+阅读 · 2020年4月4日

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

专知会员服务

22+阅读 · 2020年1月15日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【论文笔记】用于新闻推荐的深度感知网络（DKN）

【论文笔记】用于新闻推荐的深度感知网络（DKN）

专知

17+阅读 · 2019年10月7日

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

专知

87+阅读 · 2019年9月3日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

微博中定向话题发现与追踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络舆情大数据的地理空间情报价值发现与挖掘

国家自然科学基金

11+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

46+阅读 · 2014年12月31日

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Arxiv

0+阅读 · 3月4日

Resources for Automated Evaluation of Assistive RAG Systems that Help Readers with News Trustworthiness Assessment

Arxiv

0+阅读 · 2月27日

The Wikidata Query Logs Dataset

Arxiv

0+阅读 · 2月16日

LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News

Arxiv

0+阅读 · 2月14日

News Harvesting from Google News combining Web Scraping, LLM Metadata Extraction and SCImago Media Rankings enrichment: a case study of IFMIF-DONES

Arxiv

0+阅读 · 2月13日

Efficient Crawling for Scalable Web Data Acquisition (Extended Version)

Arxiv

0+阅读 · 2月12日

NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews

Arxiv

0+阅读 · 2月12日

The Impact of LLMs on Online News Consumption and Production

Arxiv

0+阅读 · 2月10日

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

DKN: Deep Knowledge-Aware Network for News Recommendation

Arxiv

22+阅读 · 2018年1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

57+阅读 · 2023年10月16日

《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文

《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文

专知会员服务

63+阅读 · 2023年8月27日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

【2023新书】Twitter挖掘的21个秘诀:从混乱的数据中提取丰富的信息

【2023新书】Twitter挖掘的21个秘诀:从混乱的数据中提取丰富的信息

专知会员服务

61+阅读 · 2023年7月18日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

【实用书-Mannning】相关搜索—使用Solr和Elasticsearch，360页pdf

【实用书-Mannning】相关搜索—使用Solr和Elasticsearch，360页pdf

专知会员服务

32+阅读 · 2020年4月16日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知会员服务

59+阅读 · 2020年4月4日

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

【博士论文】CHAMELEON:新闻推荐系统的深度学习元架构，187页pdf，CHAMELEON: A Deep Learning Meta-Architecture for News Recommender Systems [Phd. Thesis]

专知会员服务

22+阅读 · 2020年1月15日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【论文笔记】用于新闻推荐的深度感知网络（DKN）

【论文笔记】用于新闻推荐的深度感知网络（DKN）

专知

17+阅读 · 2019年10月7日

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

专知

87+阅读 · 2019年9月3日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

相关论文

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Arxiv

0+阅读 · 3月4日

Resources for Automated Evaluation of Assistive RAG Systems that Help Readers with News Trustworthiness Assessment

Arxiv

0+阅读 · 2月27日

The Wikidata Query Logs Dataset

Arxiv

0+阅读 · 2月16日

LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News

Arxiv

0+阅读 · 2月14日

News Harvesting from Google News combining Web Scraping, LLM Metadata Extraction and SCImago Media Rankings enrichment: a case study of IFMIF-DONES

Arxiv

0+阅读 · 2月13日

Efficient Crawling for Scalable Web Data Acquisition (Extended Version)

Arxiv

0+阅读 · 2月12日

NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews

Arxiv

0+阅读 · 2月12日

The Impact of LLMs on Online News Consumption and Production

Arxiv

0+阅读 · 2月10日

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

DKN: Deep Knowledge-Aware Network for News Recommendation

Arxiv

22+阅读 · 2018年1月30日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

微博中定向话题发现与追踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络舆情大数据的地理空间情报价值发现与挖掘

国家自然科学基金

11+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

46+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员