Chat assistants increasingly integrate web search functionality, enabling them to retrieve and cite external sources. While this promises more reliable answers, it also raises the risk of amplifying misinformation from low-credibility sources. In this paper, we introduce a novel methodology for evaluating assistants' web search behavior, focusing on source credibility and the groundedness of responses with respect to cited sources. Using 100 claims across five misinformation-prone topics, we assess GPT-4o, GPT-5, Perplexity, and Qwen Chat. Our findings reveal differences between the assistants, with Perplexity achieving the highest source credibility, whereas GPT-4o exhibits elevated citation of non-credibility sources on sensitive topics. This work provides the first systematic comparison of commonly used chat assistants for fact-checking behavior, offering a foundation for evaluating AI systems in high-stakes information environments.


翻译:聊天助手日益集成网络搜索功能,使其能够检索并引用外部来源。尽管这有望提供更可靠的答案,但也增加了放大低可信度来源错误信息的风险。本文提出一种评估助手网络搜索行为的新方法,重点关注来源可信度以及回答相对于引用来源的依据性。通过使用五个易出现错误信息主题的100条主张,我们评估了GPT-4o、GPT-5、Perplexity和Qwen Chat。研究结果显示各助手之间存在差异:Perplexity实现了最高的来源可信度,而GPT-4o在敏感话题上表现出对非可信度来源的较高引用率。本工作首次对常用聊天助手的事实核查行为进行了系统比较,为评估高风险信息环境中的AI系统奠定了基础。

0
下载
关闭预览

相关内容

互联网
微信搜一搜中的智能问答技术
专知会员服务
40+阅读 · 2022年6月18日
人工智能系统可信性度量评估研究综述
专知会员服务
95+阅读 · 2022年1月30日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
13+阅读 · 2019年5月9日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员