Large language models (LLMs) are increasingly used as information sources, yet small changes in semantic framing can destabilize their truth judgments. We propose P-StaT (Perturbation Stability of Truth), an evaluation framework for testing belief stability under controlled semantic perturbations in representational and behavioral settings via probing and zero-shot prompting. Across sixteen open-source LLMs and three domains, we compare perturbations involving epistemically familiar Neither statements drawn from well-known fictional contexts (Fictional) to those involving unfamiliar Neither statements not seen in training data (Synthetic). We find a consistent stability hierarchy: Synthetic content aligns closely with factual representations and induces the largest retractions of previously held beliefs, producing up to $32.7\%$ retractions in representational evaluations and up to $36.3\%$ in behavioral evaluations. By contrast, Fictional content is more representationally distinct and comparatively stable. Together, these results suggest that epistemic familiarity is a robust signal across instantiations of belief stability under semantic reframing, complementing accuracy-based factuality evaluation with a notion of epistemic robustness.


翻译:大型语言模型(LLMs)日益被用作信息来源,但语义框架的微小变化可能破坏其真值判断的稳定性。我们提出P-StaT(真理的扰动稳定性),这是一个通过探针分析和零样本提示技术,在表征与行为两种设定下测试受控语义扰动中信念稳定性的评估框架。在十六个开源LLM和三个领域中进行实验,我们比较了两种扰动类型:涉及从知名虚构语境中提取的认知熟悉型Neither陈述(虚构类),与涉及训练数据中未出现过的认知陌生型Neither陈述(合成类)。研究发现存在一致的稳定性层级:合成类内容与事实表征高度一致,并引发对先前持有信念的最大程度撤回——在表征评估中产生高达$32.7\%$的撤回率,在行为评估中高达$36.3\%$。相比之下,虚构类内容在表征上更具区分度且相对稳定。这些结果表明,在语义重构下的信念稳定性实例中,认知熟悉度是一个稳健的信号,这为基于准确性的真实性评估补充了认知鲁棒性的维度。

0
下载
关闭预览

相关内容

个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员