Online user-generated content platforms allocate billions of dollars of promotional traffic through algorithms in two-sided marketplaces. To evaluate updates to these algorithms, platforms frequently rely on creator-side randomized experiments. However, because treated and control creators compete for exposure, such experiments suffer from algorithmic interference: exposure outcomes depend on competitors' treatment status. We show that commonly used difference-in-means estimators can therefore be severely biased and may even recommend deploying inferior algorithms. To address this challenge, we develop a structured semiparametric framework that explicitly models the competitive allocation mechanism underlying exposure. Our approach combines an algorithm choice model that characterizes how exposure is allocated across competing content with a viewer response model that captures engagement conditional on exposure. We construct a debiased estimator grounded in the double machine learning framework to recover the global treatment effect of platform-wide rollout. Methodologically, we extend DML asymptotic theory to accommodate correlated samples arising from overlapping consideration sets. Using Monte Carlo simulations and a large-scale field experiment on a major short-video platform, we show that our estimator closely matches an interference-free benchmark obtained from a costly double-sided experimental design. In contrast, standard estimators exhibit substantial bias and, in some cases, even reverse the sign of the effect.


翻译:在线用户生成内容平台通过双边市场中的算法分配数十亿美元的推广流量。为评估这些算法的更新,平台常依赖创作者侧的随机实验。然而,由于处理组和对照组的创作者会争夺曝光机会,此类实验受到算法干预的影响:曝光结果取决于竞争对手的处理状态。我们证明,常用的均值差分估计量因此可能存在严重偏差,甚至可能建议部署劣质算法。为应对这一挑战,我们建立了一个结构化半参数框架,显式建模曝光背后的竞争性分配机制。该方法结合了刻画竞争内容间曝光分配机制的算法选择模型,以及捕捉曝光条件下参与度的观众响应模型。我们基于双重机器学习框架构建了去偏估计量,以恢复平台全局部署的整体处理效应。在方法论上,我们扩展了DML渐近理论以容纳由重叠考虑集产生的相关样本。通过蒙特卡洛模拟和某大型短视频平台的大规模现场实验,我们证明该估计量与通过成本高昂的双侧实验设计获得的无干预基准高度吻合。相比之下,标准估计量表现出显著偏差,在某些情况下甚至逆转了效应方向。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【博士论文】基于机器学习的计算优化
专知会员服务
21+阅读 · 2025年4月13日
对话推荐算法研究综述
专知会员服务
50+阅读 · 2022年2月18日
专知会员服务
40+阅读 · 2021年5月30日
关于GANs在医学图像领域应用的总结
计算机视觉life
13+阅读 · 2019年7月25日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关资讯
关于GANs在医学图像领域应用的总结
计算机视觉life
13+阅读 · 2019年7月25日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员