Large language models (LLMs) have rapidly emerged in civil and environmental engineering (CEE) research, education, and practice as a tool for project ideation, execution, and communication. However, it is unknown how prevalent LLM adoption is across CEE scholarship and whether it meaningfully alters research prose. Inspired by a recent analysis of biomedical abstracts, this study adapts a vocabulary-based frequency-shift methodology to estimate the incidence of LLM-written abstracts in the field of CEE scholarship using 149,452 abstracts published by the American Society of Civil Engineers from 2000 through 2025 as the representative corpus. By quantifying departures from recent vocabulary trends, we estimate 15% and 26% of abstracts published in 2024 and 2025, respectively. Prior to the introduction of LLMs in 2022, CEE publications exhibit long-term trends toward increasing numbers of authors, longer abstracts and sentences, greater use of segmenting punctuation, higher required reading levels, and a shift toward active, first-person verb constructions. Beginning around 2023, however, the frequencies of many excess style words (e.g., enhance) dramatically depart from their historic trajectories, and correspondingly, departures in multiple semantic properties are observed. When abstracts classified as likely LLM-written are isolated, these departures are shown to be largely attributable to LLM-generated text. These abstracts exhibit systematic shifts, including increased word choice diversity, more commas, increased complexity, decreased use of passive constructions, and less qualifying language commonly used to convey uncertainty, such that prose is generally more segmented, syntactically complex, and assertive. Together these findings provide the first large-scale, data-driven assessment of LLM use and effect on CEE scholarly writing.


翻译:大型语言模型(LLMs)已在土木与环境工程(CEE)的研究、教育及实践中迅速兴起,成为项目构思、实施与交流的重要工具。然而,目前尚不清楚LLM在CEE学术界的普及程度如何,以及它是否实质性地改变了研究文本的写作风格。受近期一项生物医学摘要分析的启发,本研究采用基于词汇的频率偏移方法,以美国土木工程师学会在2000年至2025年间发表的149,452篇摘要作为代表性语料,估算了CEE学术领域中由LLM撰写的摘要比例。通过量化对近期词汇趋势的偏离程度,我们估计2024年和2025年发表的摘要中分别有15%和26%可能由LLM生成。在2022年LLM问世之前,CEE出版物呈现出长期趋势:作者数量增加、摘要和句子长度增长、分段标点使用增多、所需阅读水平提高,以及动词结构向主动语态和第一人称转变。然而,从2023年左右开始,许多过度使用的风格词汇(例如“enhance”)的频率显著偏离其历史轨迹,相应地,多个语义属性也出现了偏离。当将分类为可能由LLM撰写的摘要单独分析时,这些偏离被证明主要可归因于LLM生成的文本。这类摘要表现出系统性变化,包括词汇选择多样性增加、逗号使用增多、文本复杂度提高、被动结构使用减少,以及用于表达不确定性的限定性语言减少,使得文本总体上更具分段性、句法更复杂且语气更为肯定。这些发现共同提供了首个关于LLM在CEE学术写作中的使用情况及其影响的大规模数据驱动评估。

0
下载
关闭预览

相关内容

面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月18日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员