Search-Augmented Generative Engines (SAGE) have emerged as a new paradigm for information access, bridging web-scale retrieval with generative capabilities to deliver synthesized answers. This shift has fundamentally reshaped how web content gains exposure online, giving rise to Search-Augmented Generative Engine Optimization (SAGEO), the practice of optimizing web documents to improve their visibility in AI-generated responses. Despite growing interest, no evaluation environment currently supports comprehensive investigation of SAGEO. Specifically, existing benchmarks lack end-to-end visibility evaluation of optimization strategies, operating on pre-determined candidate documents that abstract away retrieval and reranking preceding generation. Moreover, existing benchmarks discard structural information (e.g., schema markup) present in real web documents, overlooking the rich signals that search systems actively leverage in practice. Motivated by these gaps, we introduce SAGEO Arena, a realistic and reproducible environment for stage-level SAGEO analysis. Our objective is to jointly target search-oriented optimization (SEO) and generation-centric optimization (GEO). To achieve this, we integrate a full generative search pipeline over a large-scale corpus of web documents with rich structural information. Our findings reveal that existing approaches remain largely impractical under realistic conditions and often degrade performance in retrieval and reranking. We also find that structural information helps mitigate these limitations, and that effective SAGEO requires tailoring optimization to each pipeline stage. Overall, our benchmark paves the way for realistic SAGEO evaluation and optimization beyond simplified settings.


翻译:搜索增强生成引擎(SAGE)作为一种信息获取的新范式已经出现,它将网络规模的检索能力与生成能力相结合,以提供综合性的答案。这一转变从根本上重塑了网络内容在线获取曝光的方式,从而催生了搜索增强生成引擎优化(SAGEO),即优化网络文档以提高其在AI生成答案中的可见性的实践。尽管关注度日益增长,但目前尚无评估环境支持对SAGEO的全面研究。具体而言,现有基准测试缺乏对优化策略的端到端可见性评估,它们基于预先确定的候选文档运行,从而抽象掉了生成之前的检索和重排序过程。此外,现有基准测试舍弃了真实网络文档中存在的结构信息(例如模式标记),忽略了搜索系统在实践中积极利用的丰富信号。受这些不足之处的启发,我们引入了SAGEO Arena,一个用于阶段级SAGEO分析的真实且可复现的环境。我们的目标是同时针对面向搜索的优化(SEO)和以生成为中心的优化(GEO)。为实现此目标,我们整合了一个完整的生成式搜索流程,该流程基于一个包含丰富结构信息的大规模网络文档语料库。我们的研究结果表明,现有方法在真实条件下在很大程度上仍不实用,并且常常会降低检索和重排序的性能。我们还发现,结构信息有助于缓解这些限制,并且有效的SAGEO需要针对流程的每个阶段定制优化策略。总体而言,我们的基准测试为超越简化设置的真实SAGEO评估与优化铺平了道路。

0
下载
关闭预览

相关内容

互联网
检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员