GEM-Bench: A Benchmark for Ad-Injected Response Generation within Generative Engine Marketing - 专知论文

会员服务 ·

0

基准 · 引擎 · Chatbot · 设计 · 机器人 ·

GEM-Bench: A Benchmark for Ad-Injected Response Generation within Generative Engine Marketing

翻译：GEM-Bench：生成式引擎营销中的广告注入响应生成基准

Silan Hu,Shiqi Zhang,Yimin Shi,Xiaokui Xiao

from arxiv, Technical Report

Generative Engine Marketing (GEM) is an emerging ecosystem for monetizing generative engines, such as LLM-based chatbots, by seamlessly integrating relevant advertisements into their responses. At the core of GEM lies the generation and evaluation of ad-injected responses. However, existing benchmarks are not specifically designed for this purpose, which limits future research. To address this gap, we propose GEM-Bench, the first comprehensive benchmark for ad-injected response generation in GEM. GEM-Bench includes three curated datasets covering both chatbot and search scenarios, a metric ontology that captures multiple dimensions of user satisfaction and engagement, and several baseline solutions implemented within an extensible multi-agent framework. Our preliminary results indicate that, while simple prompt-based methods achieve reasonable engagement such as click-through rate, they often reduce user satisfaction. In contrast, approaches that insert ads based on pre-generated ad-free responses help mitigate this issue but introduce additional overhead. These findings highlight the need for future research on designing more effective and efficient solutions for generating ad-injected responses in GEM. The benchmark and all related resources are publicly available at https://gem-bench.org/.

翻译：生成式引擎营销（GEM）是一个新兴生态系统，旨在通过将相关广告无缝集成到其回复中，实现基于LLM的聊天机器人等生成式引擎的商业化。GEM的核心在于广告注入响应的生成与评估。然而，现有基准测试并非专门为此目的设计，限制了未来研究的发展。为填补这一空白，我们提出GEM-Bench，这是GEM中首个面向广告注入响应生成的综合基准。GEM-Bench包含三个涵盖聊天机器人与搜索场景的精选数据集、一个捕获用户满意度和参与度多维度的指标本体，以及多个基于可扩展多智能体框架实现的基线方案。初步结果表明，尽管简单的基于提示的方法能实现合理的参与度（如点击率），但往往会降低用户满意度。相比之下，基于预先生成的无广告响应插入广告的方法有助于缓解此问题，但会引入额外开销。这些发现凸显了未来需研究在GEM中设计更高效、更有效的广告注入响应生成方案。该基准及所有相关资源已在https://gem-bench.org/上公开。

0

相关内容

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

26+阅读 · 2025年5月16日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

32+阅读 · 2024年9月26日

【新书】生成式人工智能和大语言模型：自然语言处理与生成对抗网络

【新书】生成式人工智能和大语言模型：自然语言处理与生成对抗网络

专知会员服务

47+阅读 · 2024年9月25日

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

专知会员服务

59+阅读 · 2024年7月1日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

生成式AI机遇和颠覆：演变中的万亿美元市场--彭博（52页）

生成式AI机遇和颠覆：演变中的万亿美元市场--彭博（52页）

专知会员服务

48+阅读 · 2024年5月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

49+阅读 · 2023年9月20日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

GEO轨道空间目标逆合成孔径激光雷达成像理论和方法

国家自然科学基金

2+阅读 · 2017年12月31日

GEO-UAV 双基SAR成像模型与处理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑价格歧视和广告效应的网络团购销售策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

互联网环境下新创企业创业导向的生成机理及演化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

移动互联网环境下O2O渠道整合与交互模式对顾客忠诚的影响：基于顾客体验视角

国家自然科学基金

0+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

13+阅读 · 2014年12月31日

On the Memorization Behavior of LLMs in Generative Recommendation: Observations, Implications, and Training Strategies

Arxiv

0+阅读 · 6月15日

Caption Injection for Optimization in Generative Search Engine

Arxiv

0+阅读 · 6月5日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 6月3日

DeployBench: Benchmarking LLM Agents for Research Artifact Deployment

Arxiv

0+阅读 · 6月3日

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

Arxiv

0+阅读 · 5月27日

GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation

Arxiv

0+阅读 · 5月19日

Generative AI Advertising as a Problem of Trustworthy Commercial Intervention

Arxiv

0+阅读 · 5月18日

Genflow Ad Studio: A Compound AI Architecture for Brand-Aligned, Self-Correcting Video Generation

Arxiv

0+阅读 · 5月16日

RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems

Arxiv

0+阅读 · 5月12日

Unified Value Alignment for Generative Recommendation in Industrial Advertising

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 3分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 15分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 26分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 35分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 39分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 43分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 47分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

相关VIP内容

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

26+阅读 · 2025年5月16日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

32+阅读 · 2024年9月26日

【新书】生成式人工智能和大语言模型：自然语言处理与生成对抗网络

【新书】生成式人工智能和大语言模型：自然语言处理与生成对抗网络

专知会员服务

47+阅读 · 2024年9月25日

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

专知会员服务

59+阅读 · 2024年7月1日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

生成式AI机遇和颠覆：演变中的万亿美元市场--彭博（52页）

生成式AI机遇和颠覆：演变中的万亿美元市场--彭博（52页）

专知会员服务

48+阅读 · 2024年5月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

49+阅读 · 2023年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

美以伊冲突：无人机与人工智能的运用

《特种部队在透明战场中的生存力》最新报告

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

相关论文

On the Memorization Behavior of LLMs in Generative Recommendation: Observations, Implications, and Training Strategies

Arxiv

0+阅读 · 6月15日

Caption Injection for Optimization in Generative Search Engine

Arxiv

0+阅读 · 6月5日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 6月3日

DeployBench: Benchmarking LLM Agents for Research Artifact Deployment

Arxiv

0+阅读 · 6月3日

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

Arxiv

0+阅读 · 5月27日

GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation

Arxiv

0+阅读 · 5月19日

Generative AI Advertising as a Problem of Trustworthy Commercial Intervention

Arxiv

0+阅读 · 5月18日

Genflow Ad Studio: A Compound AI Architecture for Brand-Aligned, Self-Correcting Video Generation

Arxiv

0+阅读 · 5月16日

RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems

Arxiv

0+阅读 · 5月12日

Unified Value Alignment for Generative Recommendation in Industrial Advertising

Arxiv

0+阅读 · 5月7日

相关基金

GEO轨道空间目标逆合成孔径激光雷达成像理论和方法

国家自然科学基金

2+阅读 · 2017年12月31日

GEO-UAV 双基SAR成像模型与处理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑价格歧视和广告效应的网络团购销售策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

互联网环境下新创企业创业导向的生成机理及演化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

移动互联网环境下O2O渠道整合与交互模式对顾客忠诚的影响：基于顾客体验视角

国家自然科学基金

0+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

13+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员