Geographic experiments are a widely-used methodology for measuring incremental return on ad spend (iROAS) at scale, yet their design presents significant challenges. The unit count is small, heterogeneity is large, and the optimal Supergeo partitioning problem is NP-hard. We introduce Optimized Supergeo Design (OSD), a two-stage framework that renders Supergeo designs practical for large-scale markets. Principal Component Analysis (PCA) first reduces the covariate space to create interpretable geo-embeddings. A Mixed-Integer Linear Programming (MILP) solver then selects a partition that balances both baseline outcomes and pre-treatment covariates. We provide theoretical arguments that OSD's objective value is within $(1+\varepsilon)$ of the global optimum under community-structure assumptions. Rigorous ablation analysis on synthetic data shows that PCA- and random-embedding Supergeo designs match unit-level randomisation in estimation error while delivering tighter covariate balance, whereas spectral embeddings substantially worsen both RMSE and balance. Crucially, OSD solves the scalability bottleneck. For $N=210$ markets, OSD completes in a fraction of a second, while exact Supergeo covering MIPs described in prior work are projected to require orders of magnitude longer, on the order of weeks. Scalability experiments up to $N=1\,000$ units show that OSD remains fast without trimming markets. In our main synthetic setting with $N=200$ units, PCA- and random-embedding designs keep covariate imbalance at only a few percentage points while preserving every media dollar, establishing a scalable framework that matches the statistical efficiency of randomisation with the operational practicality of Supergeos.


翻译:地理实验是一种广泛用于大规模测量广告支出增量回报率(iROAS)的方法,但其设计面临显著挑战:单元数量少、异质性大,且最优超级地理区域划分问题属于NP难问题。本文提出优化超级地理区域设计(OSD),一种两阶段框架,使超级地理区域设计在大规模市场中具有实用性。首先通过主成分分析(PCA)降维协变量空间以生成可解释的地理嵌入;随后采用混合整数线性规划(MILP)求解器选择一种能平衡基线结果与处理前协变量的划分方案。理论分析表明,在社区结构假设下,OSD的目标函数值在全局最优解的$(1+\varepsilon)$范围内。基于合成数据的严格消融实验显示:采用PCA嵌入与随机嵌入的超级地理区域设计在估计误差方面与单元级随机化相当,同时实现了更紧密的协变量平衡;而谱嵌入方法则显著增加了均方根误差(RMSE)并破坏了平衡性。关键的是,OSD解决了可扩展性瓶颈问题:对于$N=210$个市场,OSD可在不到一秒内完成求解,而现有文献中描述的精确超级地理区域覆盖混合整数规划(MIP)预计需要数周量级时间。在$N=1\,000$个单元的扩展性实验中,OSD无需剔除市场仍保持高速求解。在$N=200$个单元的主要合成场景中,PCA嵌入与随机嵌入设计将协变量不平衡度控制在几个百分点内,同时保全了所有媒体预算,从而建立了一个既具备随机化统计效率又兼顾超级地理区域操作实用性的可扩展框架。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员