Beyond speculation: Measuring the growing presence of LLM-generated texts in multilingual disinformation - 专知论文

会员服务 ·

0

大语言模型 · 文本质量 · 潜在 · 系统 · 情境 ·

Beyond speculation: Measuring the growing presence of LLM-generated texts in multilingual disinformation

翻译：超越推测：衡量LLM生成文本在多语言虚假信息中日益增长的存在

Dominik Macko,Aashish Anantha Ramakrishnan,Jason Samuel Lucas,Robert Moro,Ivan Srba,Adaku Uchendu,Dongwon Lee

from arxiv, accepted to Computer magazine

Increased sophistication of large language models (LLMs) and the consequent quality of generated multilingual text raises concerns about potential disinformation misuse. While humans struggle to distinguish LLM-generated content from human-written texts, the scholarly debate about their impact remains divided. Some argue that heightened fears are overblown due to natural ecosystem limitations, while others contend that specific "longtail" contexts face overlooked risks. Our study bridges this debate by providing the first empirical evidence of LLM presence in the latest real-world disinformation datasets, documenting the increase of machine-generated content following ChatGPT's release, and revealing crucial patterns across languages, platforms, and time periods.

翻译：大型语言模型（LLM）日益精进及其生成的多语言文本质量的提升，引发了对潜在虚假信息滥用的担忧。尽管人类难以区分LLM生成内容与人工撰写文本，学界对其影响的讨论仍存分歧。部分观点认为，由于自然生态系统的限制，过度担忧实属夸大；另一些则主张特定“长尾”情境面临被忽视的风险。本研究通过提供首个关于现实世界最新虚假信息数据集中LLM存在的实证证据，记录了ChatGPT发布后机器生成内容的增长，并揭示了跨语言、平台和时间维度的关键模式，从而弥合了上述争论。

0

相关内容

大语言模型

大语言模型

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

迈向LLM时代的可泛化评估：超越基准的综述

迈向LLM时代的可泛化评估：超越基准的综述

专知会员服务

23+阅读 · 2025年4月29日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

LLM-Text Watermarking based on Lagrange Interpolation

Arxiv

0+阅读 · 2月26日

Beyond the Star Rating: A Scalable Framework for Aspect-Based Sentiment Analysis Using LLMs and Text Classification

Arxiv

0+阅读 · 2月24日

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月19日

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

Arxiv

0+阅读 · 2月16日

Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil

Arxiv

0+阅读 · 2月16日

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

Arxiv

0+阅读 · 2月15日

Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind

Arxiv

0+阅读 · 2月14日

HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment

Arxiv

0+阅读 · 2月11日

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

6+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

迈向LLM时代的可泛化评估：超越基准的综述

迈向LLM时代的可泛化评估：超越基准的综述

专知会员服务

23+阅读 · 2025年4月29日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

相关论文

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

LLM-Text Watermarking based on Lagrange Interpolation

Arxiv

0+阅读 · 2月26日

Beyond the Star Rating: A Scalable Framework for Aspect-Based Sentiment Analysis Using LLMs and Text Classification

Arxiv

0+阅读 · 2月24日

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月19日

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

Arxiv

0+阅读 · 2月16日

Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil

Arxiv

0+阅读 · 2月16日

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

Arxiv

0+阅读 · 2月15日

Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind

Arxiv

0+阅读 · 2月14日

HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment

Arxiv

0+阅读 · 2月11日

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications

Arxiv

0+阅读 · 1月30日

相关基金

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员