基于代理的大规模A/B测试流行度测量方法 (Surrogate-Based Prevalence Measurement for Large-Scale A/B Testing) - 专知论文

会员服务 ·

0

流行度 · 标注 · 在线 · 属性 · 标注标准 ·

Surrogate-Based Prevalence Measurement for Large-Scale A/B Testing

翻译：基于代理的大规模A/B测试流行度测量方法

Zehao Xu,Tony Paek,Kevin O'Sullivan,Attila Dobi

Online media platforms often need to measure how frequently users are exposed to specific content attributes in order to evaluate trade-offs in A/B experiments. A direct approach is to sample content, label it using a high-quality rubric (e.g., an expert-reviewed LLM prompt), and estimate impression-weighted prevalence. However, repeatedly running such labeling for every experiment arm and segment is too costly and slow to serve as a default measurement at scale. We present a scalable \emph{surrogate-based prevalence measurement} framework that decouples expensive labeling from per-experiment evaluation. The framework calibrates a surrogate signal to reference labels offline and then uses only impression logs to estimate prevalence for arbitrary experiment arms and segments. We instantiate this framework using \emph{score bucketing} as the surrogate: we discretize a model score into buckets, estimate bucket-level prevalences from an offline labeled sample, and combine these calibrated bucket level prevalences with the bucket distribution of impressions in each arm to obtain fast, log-based estimates. Across multiple large-scale A/B tests, we validate that the surrogate estimates closely match the reference estimates for both arm-level prevalence and treatment--control deltas. This enables scalable, low-latency prevalence measurement in experimentation without requiring per-experiment labeling jobs.

翻译：在线媒体平台通常需要测量用户接触特定内容属性的频率，以评估A/B实验中的权衡取舍。一种直接方法是对内容进行抽样，使用高质量标注标准（例如经过专家评审的大语言模型提示）进行标注，并估计曝光加权流行度。然而，为每个实验组和细分群体重复运行此类标注成本过高且速度缓慢，无法作为规模化默认测量方案。本文提出一种可扩展的**基于代理的流行度测量**框架，将昂贵的标注过程与逐实验评估解耦。该框架在线下将代理信号与参考标注进行校准，随后仅使用曝光日志即可估计任意实验组和细分群体的流行度。我们采用**分数分桶**作为代理实现该框架：将模型分数离散化为多个桶，通过线下标注样本估计桶级流行度，并将这些校准后的桶级流行度与各实验组曝光数据的桶分布相结合，从而获得基于日志的快速估计。在多个大规模A/B测试中，我们验证了代理估计值在实验组级流行度及处理-对照组差异方面均与参考估计值高度吻合。这使得实验中的流行度测量能够实现可扩展、低延迟的评估，无需为每个实验单独执行标注任务。

0

相关内容

流行度

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

13+阅读 · 2025年7月3日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

专知会员服务

28+阅读 · 2021年4月26日

基于深度学习的流行度预测研究综述

专知会员服务

47+阅读 · 2021年3月24日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

55+阅读 · 2020年3月17日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

苏宁易购基于机器学习预测流量波动趋势的实践经验

苏宁易购基于机器学习预测流量波动趋势的实践经验

AI前线

15+阅读 · 2019年10月17日

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

专知

50+阅读 · 2019年9月23日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

Arxiv

0+阅读 · 2月15日

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Arxiv

0+阅读 · 2月11日

Towards Reliable Social A/B Testing: Spillover-Contained Clustering with Robust Post-Experiment Analysis

Arxiv

0+阅读 · 2月9日

ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding

Arxiv

0+阅读 · 2月3日

Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks

Arxiv

0+阅读 · 2月2日

SCALED : Surrogate-gradient for Codec-Aware Learning of Downsampling in ABR Streaming

Arxiv

0+阅读 · 1月30日

Entropy-Gated Branching for Efficient Test-Time Reasoning

Arxiv

0+阅读 · 1月27日

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models

Arxiv

0+阅读 · 1月27日

PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation

Arxiv

0+阅读 · 1月26日

Bridging Semantic Understanding and Popularity Bias with LLMs

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

相关VIP内容

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

13+阅读 · 2025年7月3日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

专知会员服务

28+阅读 · 2021年4月26日

基于深度学习的流行度预测研究综述

专知会员服务

47+阅读 · 2021年3月24日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知会员服务

55+阅读 · 2020年3月17日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

苏宁易购基于机器学习预测流量波动趋势的实践经验

苏宁易购基于机器学习预测流量波动趋势的实践经验

AI前线

15+阅读 · 2019年10月17日

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

专知

50+阅读 · 2019年9月23日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

Arxiv

0+阅读 · 2月15日

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Arxiv

0+阅读 · 2月11日

Towards Reliable Social A/B Testing: Spillover-Contained Clustering with Robust Post-Experiment Analysis

Arxiv

0+阅读 · 2月9日

ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding

Arxiv

0+阅读 · 2月3日

Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks

Arxiv

0+阅读 · 2月2日

SCALED : Surrogate-gradient for Codec-Aware Learning of Downsampling in ABR Streaming

Arxiv

0+阅读 · 1月30日

Entropy-Gated Branching for Efficient Test-Time Reasoning

Arxiv

0+阅读 · 1月27日

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models

Arxiv

0+阅读 · 1月27日

PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation

Arxiv

0+阅读 · 1月26日

Bridging Semantic Understanding and Popularity Bias with LLMs

Arxiv

0+阅读 · 1月18日

相关基金

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员