基于论证稀有度的AI辅助写作原创性评估 (Argument Rarity-based Originality Assessment for AI-Assisted Writing)

This study proposes Argument Rarity-based Originality Assessment (AROA), a framework for automatically evaluating argumentative originality in student essays. AROA defines originality as rarity within a reference corpus and evaluates it through four complementary components: structural rarity, claim rarity, evidence rarity, and cognitive depth, quantified via density estimation and integrated with quality adjustment. Experiments using 1,375 human essays and 1,000 AI-generated essays on two argumentative topics revealed three key findings. First, a strong negative correlation (r = -0.67) between text quality and claim rarity demonstrates a quality-originality trade-off. Second, while AI essays achieved near-perfect quality scores (Q = 0.998), their claim rarity was approximately one-fifth of human levels (AI: 0.037, human: 0.170), indicating that LLMs can reproduce argumentative structure but not semantic originality. Third, the four components showed low mutual correlations (r = 0.06--0.13 between structural and semantic dimensions), confirming that they capture genuinely independent aspects of originality. These results suggest that writing assessment in the AI era must shift from quality to originality.

翻译：本研究提出基于论证稀有度的原创性评估框架，用于自动评估学生议论文的论证原创性。该框架将原创性定义为参考语料库中的稀有程度，并通过四个互补维度进行评估：结构稀有度、主张稀有度、证据稀有度与认知深度，这些维度通过密度估计进行量化并与质量调整因子相结合。基于两个议论文主题的1,375篇人工撰写论文与1,000篇AI生成论文的实验揭示了三个关键发现：首先，文本质量与主张稀有度之间存在强负相关性，相关系数达-0.67，体现了质量与原创性之间的权衡关系；其次，虽然AI论文获得了接近完美的质量评分，但其主张稀有度仅为人类水平的五分之一，表明大语言模型能够复现论证结构却无法实现语义层面的原创性；第三，四个评估维度间呈现较低的相关性，证实了它们捕捉的是原创性中真正独立的维度。这些结果表明，AI时代的写作评估必须从质量导向转向原创性导向。

相关内容

关注 7103

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日