The rapid integration of large language models into newsroom workflows has raised urgent questions about the prevalence of AI-generated content in online media. While computational studies have begun to quantify this phenomenon in English-language outlets, no empirical investigation exists for Turkish news media, where existing research remains limited to qualitative interviews with journalists or fake news detection. This study addresses that gap by fine-tuning a Turkish-specific BERT model (dbmdz/bert-base-turkish-cased) on a labeled dataset of 3,600 articles from three major Turkish outlets with distinct editorial orientations for binary classification of AI-rewritten content. The model achieves 0.9708 F1 score on the held-out test set with symmetric precision and recall across both classes. Subsequent deployment on over 3,500 unseen articles spanning between 2023 and 2026 reveals consistent cross-source and temporally stable classification patterns, with mean prediction confidence exceeding 0.96 and an estimated 2.5 percentage of examined news content rewritten or revised by LLMs on average. To the best of our knowledge, this is the first study to move beyond self-reported journalist perceptions toward empirical, data-driven measurement of AI usage in Turkish news media.


翻译:大型语言模型在新闻编辑室工作流程中的快速融合,引发了关于在线媒体中AI生成内容普遍性的紧迫问题。尽管计算研究已开始量化英语媒体中的这一现象,但对土耳其新闻媒体尚无实证调查,现有研究仍局限于对记者的定性访谈或虚假新闻检测。本研究通过在一个标注数据集上微调土耳其语专用BERT模型(dbmdz/bert-base-turkish-cased)来填补这一空白,该数据集包含来自三家具有不同编辑取向的土耳其主流媒体的3600篇文章,用于AI改写内容的二元分类。该模型在保留测试集上取得了0.9708的F1分数,且两个类别的精确率与召回率对称。随后对2023年至2026年间超过3500篇未见文章进行部署分析,揭示了跨新闻源一致且时间维度稳定的分类模式,平均预测置信度超过0.96,估计平均有2.5%的受检新闻内容被大型语言模型改写或修订。据我们所知,这是首个超越记者自我报告感知、对土耳其新闻媒体中AI使用情况进行实证数据驱动测量的研究。

0
下载
关闭预览

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
AIGC视觉内容生成与溯源研究进展
专知会员服务
27+阅读 · 2024年7月8日
如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
AIGC视觉内容生成与溯源研究进展
专知会员服务
27+阅读 · 2024年7月8日
如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员