This study develops and evaluates a systematic methodology for constructing news datasets from Google News, combining automated web scraping, large language model (LLM)-based metadata extraction, and SCImago Media Rankings enrichment. Using the IFMIF-DONES fusion energy project as a case study, we implemented a five-stage data collection pipeline across 81 region-language combinations, yielding 1,482 validated records after a 56% noise reduction. Results are compared against two licensed press databases: MyNews (2,280 records) and ProQuest Newsstream Collection (148 records). Overlap analysis reveals high complementarity, with 76% of Google News records exclusive to this platform. The dataset captures content types absent from proprietary databases, including specialized outlets, institutional communications, and social media posts. However, significant methodological challenges emerge: temporal instability requiring synchronic collection, a 100-result cap per query demanding multi-stage strategies, and unexpected noise including academic PDFs, false positives, and pornographic content infiltrating results through black hat SEO techniques. LLM-assisted extraction proved effective for structured articles but exhibited systematic hallucination patterns requiring validation protocols. We conclude that Google News offers valuable complementary coverage for communication research but demands substantial methodological investment, multi-source triangulation, and robust filtering mechanisms to ensure dataset integrity.


翻译:本研究开发并评估了一种从谷歌新闻构建新闻数据集的系统方法,该方法融合了自动化网络爬取、基于大语言模型(LLM)的元数据提取以及SCImago媒体排名增强。以IFMIF-DONES聚变能源项目为案例,我们实施了跨越81个区域-语言组合的五阶段数据采集流程,在实现56%的噪声削减后,获得了1,482条已验证记录。研究结果与两个授权新闻数据库——MyNews(2,280条记录)和ProQuest Newsstream Collection(148条记录)——进行了对比。重叠分析显示出高度的互补性,谷歌新闻记录中有76%为该平台独有。该数据集捕获了专有数据库中缺失的内容类型,包括专业媒体、机构通讯和社交媒体帖子。然而,方法学上出现了显著挑战:需要同步采集以应对时间不稳定性;每次查询的100条结果上限要求采用多阶段策略;以及包括学术PDF、误报和通过黑帽SEO技术渗透结果的色情内容在内的意外噪声。LLM辅助提取对于结构化文章证明有效,但表现出需要验证协议的系统性幻觉模式。我们的结论是,谷歌新闻为传播学研究提供了有价值的补充覆盖,但需要大量的方法学投入、多源三角验证以及鲁棒的过滤机制,以确保数据集的完整性。

0
下载
关闭预览

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《使用生成式大语言模型进行多语言事件提取》最新85页
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
85+阅读 · 2024年6月28日
专知会员服务
49+阅读 · 2021年6月26日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
Google Brain ICLR Talk:元学习的前沿与挑战
专知
27+阅读 · 2019年5月9日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员