Large language model (LLM)-based search agents synthesize open-web content into actionable recommendations on behalf of users, creating a risk that attacker-published pages are transformed into endorsed claims. We introduce SearchGEO, a controlled evaluation framework for measuring endorsement corruption in LLM-based web-search agents, combining a web-evidence manipulation pipeline, a five-mode attack taxonomy, and multiple output-level metrics. We evaluate 13 LLM backends on 308 cases each. Results show that vulnerability patterns vary across backends: overall attack success rate (ASR) ranges from 0.0% on Claude-Sonnet-4.6 to 31.4% on Gemini-3-Flash, the strongest attack mode differs by model family, and the same deployment scaffold could amplify or decrease ASR on different backends. An auxiliary agent-skill probe, where endorsement becomes an install command, exposes a sharp split among otherwise robust backends: Claude over-rejects while GPT over-trusts. These findings argue for treating recommendation reliability under adversarial search content as a first-class dimension of backend safety evaluation.


翻译:基于大型语言模型的网络搜索智能体,会综合开放网络内容形成可执行建议,从而产生攻击者发布的页面被转化为推荐断言的风险。本文提出SearchGEO框架——一种用于量化评估基于大型语言模型的网络搜索智能体推荐失真的受控评测框架,其核心组件包括网络证据操纵流水线、五维攻击分类体系及多层面输出评估指标。我们基于308组测试案例对13个大型语言模型后端进行了评估。实验结果显示,不同后端的脆弱性模式存在显著差异:整体攻击成功率从Claude-Sonnet-4.6的0.0%到Gemini-3-Flash的31.4%呈梯度分布;最强攻击模式因模型系列而异;同一部署架构在不同后端上可能放大或削弱攻击成功率。辅助性智能体技能探测实验(将推荐行为转化为命令安装指令)揭示了表现稳健的模型后端之间存在明显分野:Claude表现为过度拒绝,而GPT则呈现过度信任。这些发现表明,应当将恶意搜索内容场景下的推荐可靠性,作为后端安全评估的首要维度加以考量。

0
下载
关闭预览

相关内容

关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
基于图神经网络的推荐算法总结
机器学习与推荐算法
25+阅读 · 2021年9月30日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
推荐系统概述
Python开发者
11+阅读 · 2018年9月27日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 26分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 28分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 40分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员