Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers - 专知论文

会员服务 ·

0

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

翻译：超越与“via”：大型语言模型在学术论文中影响的量化分析

Mingmeng Geng,Yuhang Dong,Thierry Poibeau

from arxiv, Visualization of word usage patterns in arXiv abstracts: https://llm-impact.github.io/

Through an analysis of arXiv papers, we report several shifts in word usage that are likely driven by large language models (LLMs) but have not previously received sufficient attention, such as the increased frequency of "beyond" and "via" in titles and the decreased frequency of "the" and "of" in abstracts. Due to the similarities among different LLMs, experiments show that current classifiers struggle to accurately determine which specific model generated a given text in multi-class classification tasks. Meanwhile, variations across LLMs also result in evolving patterns of word usage in academic papers. By adopting a direct and highly interpretable linear approach and accounting for differences between models and prompts, we quantitatively assess these effects and show that real-world LLM usage is heterogeneous and dynamic.

翻译：通过对arXiv论文的分析，我们报告了若干受大型语言模型（LLMs）驱动但此前未获充分关注的词汇使用变化趋势，例如标题中"beyond"和"via"出现频率显著上升，以及摘要中"the"和"of"使用频率下降。由于不同LLM之间的相似性，实验表明现有分类器在多分类任务中难以准确判定文本的具体生成模型。与此同时，不同LLM之间的差异也导致学术论文中词汇使用模式呈现动态演化特征。通过采用直接且高可解释性的线性方法，并纳入模型差异与提示词差异的考量，我们对这些效应进行了定量评估，证明真实场景中的LLM使用具有异质性和动态性。

0

相关内容

面向交通与运输研究的大语言模型：方法论、前沿进展与未来机遇

面向交通与运输研究的大语言模型：方法论、前沿进展与未来机遇

专知会员服务

30+阅读 · 2025年3月30日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

专知会员服务

42+阅读 · 2024年2月8日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

MIT&哈佛大学最新综述文章：NLP模型的分析方法

MIT&哈佛大学最新综述文章：NLP模型的分析方法

专知

24+阅读 · 2018年12月26日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation

Arxiv

0+阅读 · 4月3日

Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs

Arxiv

0+阅读 · 3月29日

Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering

Arxiv

0+阅读 · 3月27日

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Arxiv

0+阅读 · 3月26日

Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

Arxiv

0+阅读 · 3月17日

Beyond the Prompt: An Empirical Study of Cursor Rules

Arxiv

0+阅读 · 3月4日

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Arxiv

0+阅读 · 2月26日

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

Arxiv

0+阅读 · 2月23日

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

Arxiv

0+阅读 · 2月22日

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

Arxiv

66+阅读 · 2023年5月31日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

面向交通与运输研究的大语言模型：方法论、前沿进展与未来机遇

面向交通与运输研究的大语言模型：方法论、前沿进展与未来机遇

专知会员服务

30+阅读 · 2025年3月30日

面向统计学家的大型语言模型概述

面向统计学家的大型语言模型概述

专知会员服务

32+阅读 · 2025年3月16日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

专知会员服务

42+阅读 · 2024年2月8日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

MIT&哈佛大学最新综述文章：NLP模型的分析方法

MIT&哈佛大学最新综述文章：NLP模型的分析方法

专知

24+阅读 · 2018年12月26日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation

Arxiv

0+阅读 · 4月3日

Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs

Arxiv

0+阅读 · 3月29日

Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering

Arxiv

0+阅读 · 3月27日

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Arxiv

0+阅读 · 3月26日

Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

Arxiv

0+阅读 · 3月17日

Beyond the Prompt: An Empirical Study of Cursor Rules

Arxiv

0+阅读 · 3月4日

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Arxiv

0+阅读 · 2月26日

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

Arxiv

0+阅读 · 2月23日

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

Arxiv

0+阅读 · 2月22日

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

Arxiv

66+阅读 · 2023年5月31日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员