AI-powered answer engines are inherently non-deterministic: identical queries submitted at different times can produce different responses and cite different sources. Despite this stochastic behavior, current approaches to measuring domain visibility in generative search typically rely on single-run point estimates of citation share and prevalence, implicitly treating them as fixed values. This paper argues that citation visibility metrics should be treated as sample estimators of an underlying response distribution rather than fixed values. We conduct an empirical study of citation variability across three generative search platforms--Perplexity Search, OpenAI SearchGPT, and Google Gemini--using repeated sampling across three consumer product topics. Two sampling regimes are employed: daily collections over nine days and high-frequency sampling at ten-minute intervals. We show that citation distributions follow a power-law form and exhibit substantial variability across repeated samples. Bootstrap confidence intervals reveal that many apparent differences between domains fall within the noise floor of the measurement process. Distribution-wide rank stability analysis further demonstrates that citation rankings are unstable across samples, not only among top-ranked domains but throughout the frequently cited domain set. These findings demonstrate that single-run visibility metrics provide a misleadingly precise picture of domain performance in generative search. We argue that citation visibility must be reported with uncertainty estimates and provide practical guidance for sample sizes required to achieve interpretable confidence intervals.


翻译:人工智能驱动的答案引擎本质上是非确定性的:在不同时间提交的相同查询可能产生不同的回答并引用不同的来源。尽管存在这种随机行为,当前测量生成式搜索中领域可见性的方法通常依赖于引用份额和流行度的单次运行点估计,隐含地将其视为固定值。本文认为,引用可见性指标应被视为底层响应分布的样本估计量,而非固定值。我们通过对三个生成式搜索平台——Perplexity Search、OpenAI SearchGPT 和 Google Gemini——在三个消费品主题上进行重复抽样,开展了一项引用变异性的实证研究。采用了两种抽样机制:为期九天的每日收集和十分钟间隔的高频抽样。我们表明,引用分布遵循幂律形式,并在重复样本中表现出显著的变异性。自助法置信区间显示,许多领域间的表面差异落在测量过程的噪声基底之内。全分布排名稳定性分析进一步证明,引用排名在样本间是不稳定的,不仅限于排名靠前的领域,在整个频繁被引用的领域集合中均是如此。这些发现表明,单次运行的可见性指标对生成式搜索中领域性能的描述具有误导性的精确度。我们认为,引用可见性必须附带不确定性估计进行报告,并为实现可解释的置信区间所需的样本量提供了实用指导。

0
下载
关闭预览

相关内容

【博士论文】统计学习中的可靠不确定性量化,128页pdf
专知会员服务
45+阅读 · 2023年11月23日
【AAAI2023】不确定性感知的图像描述生成
专知会员服务
26+阅读 · 2022年12月4日
人工智能系统可信性度量评估研究综述
专知会员服务
95+阅读 · 2022年1月30日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员