Large language models (LLMs) have been shown to possess a degree of self-recognition ability, which used to identify whether a given text was generated by themselves. Prior work has demonstrated that this capability is reliably expressed under the pair presentation paradigm (PPP), where the model is presented with two texts and asked to choose which one it authored. However, performance deteriorates sharply under the individual presentation paradigm (IPP), where the model is given a single text to judge authorship. Although this phenomenon has been observed, its underlying causes have not been systematically analyzed. In this paper, we first investigate the cause of this failure and attribute it to implicit self-recognition (ISR). ISR describes the gap between internal representations and output behavior in LLMs: under the IPP scenario, the model encodes self-recognition information in its feature space, yet its ability to recognize self-generated texts remains poor. To mitigate the ISR of LLMs, we propose cognitive surgery (CoSur), a novel framework comprising four main modules: representation extraction, subspace construction, authorship discrimination, and cognitive editing. Experimental results demonstrate that our proposed method improves the self-recognition performance of three different LLMs in the IPP scenario, achieving average accuracies of 99.00%, 97.69%, and 97.13%, respectively.


翻译:大语言模型(LLMs)已被证明具备一定程度的自我识别能力,即能够判断给定文本是否由自身生成。先前研究表明,在配对呈现范式(PPP)下,该能力能够可靠地表达——模型被同时呈现两段文本并被要求选择其生成的那一段。然而,在独立呈现范式(IPP)下,即模型仅被给予单段文本以判断作者身份时,其性能会急剧下降。尽管这一现象已被观察到,但其根本原因尚未得到系统分析。本文首先探究了这种失效的原因,并将其归因于隐式自我识别(ISR)。ISR描述了LLMs内部表征与输出行为之间的差距:在IPP场景下,模型在其特征空间中编码了自我识别信息,但其识别自身生成文本的能力仍然较弱。为缓解LLMs的ISR问题,我们提出认知手术(CoSur)这一新颖框架,该框架包含四个主要模块:表征提取、子空间构建、作者身份判别和认知编辑。实验结果表明,我们提出的方法在IPP场景下提升了三种不同LLMs的自我识别性能,平均准确率分别达到99.00%、97.69%和97.13%。

0
下载
关闭预览

相关内容

【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
多模态大语言模型的自我改进:综述
专知会员服务
27+阅读 · 2025年10月8日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
大语言模型增强知识表示学习综述
专知会员服务
69+阅读 · 2024年7月2日
大模型如何迭代?北大等《大型语言模型自我进化》综述
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月18日
VIP会员
最新内容
大语言模型平台在国防情报应用中的对比
专知会员服务
3+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
2+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
《系统簇式多域作战规划范畴论框架》
专知会员服务
10+阅读 · 4月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员