Clustering-based Imputation for Dropout Buyers in Large-scale Online Experimentation - 专知论文

会员服务 ·

0

在线实验 · 在线 · K近邻法 · 最近邻 · 近邻 ·

2023 年 4 月 7 日

Clustering-based Imputation for Dropout Buyers in Large-scale Online Experimentation

翻译：基于聚类的缺失购买者填补方法在大规模在线实验中的应用

Sumin Shen,Huiying Mao,Zezhong Zhang,Zili Chen,Keyu Nie,Xinwei Deng

In online experimentation, appropriate metrics (e.g., purchase) provide strong evidence to support hypotheses and enhance the decision-making process. However, incomplete metrics are frequently occurred in the online experimentation, making the available data to be much fewer than the planned online experiments (e.g., A/B testing). In this work, we introduce the concept of dropout buyers and categorize users with incomplete metric values into two groups: visitors and dropout buyers. For the analysis of incomplete metrics, we propose a clustering-based imputation method using $k$-nearest neighbors. Our proposed imputation method considers both the experiment-specific features and users' activities along their shopping paths, allowing different imputation values for different users. To facilitate efficient imputation of large-scale data sets in online experimentation, the proposed method uses a combination of stratification and clustering. The performance of the proposed method is compared to several conventional methods in both simulation studies and a real online experiment at eBay.

翻译：在在线实验中，合适的指标（如购买行为）能为假设提供有力证据并增强决策过程。然而，在线实验中常出现指标数据不完整的情况，导致可用数据远少于计划中的在线实验（如A/B测试）预期数据量。本研究引入"流失购买者"概念，将具有不完整指标值的用户分为两类：访客和流失购买者。针对不完整指标的分析，我们提出一种基于聚类的填补方法，采用$k$近邻算法。该方法同时考虑了实验特定特征与用户购物路径中的行为活动，可为不同用户生成差异化的填补值。为高效处理在线实验中的大规模数据集，本方法结合了分层采样与聚类技术。通过模拟实验及eBay真实在线实验的对比验证，本方法相较于多种传统方法展现出更优性能。

0

相关内容

在线实验

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

专知会员服务

60+阅读 · 2022年5月5日

【阿姆斯特丹大学Erik J Bekkers】群等变深度学习介绍，Introduction to group equivariant deep learning

【阿姆斯特丹大学Erik J Bekkers】群等变深度学习介绍，Introduction to group equivariant deep learning

专知会员服务

27+阅读 · 2022年3月27日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

19+阅读 · 2021年12月12日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

52+阅读 · 2020年12月14日

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

专知会员服务

22+阅读 · 2020年6月3日

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

专知会员服务

33+阅读 · 2020年3月23日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【伯克利 | 情感计算】大规模异构多媒体数据的情感计算:综述论文，37页pdf，171篇参考文献，Affective Computing for Large-Scale Heterogeneous Multimedia Data: A Survey

【伯克利 | 情感计算】大规模异构多媒体数据的情感计算:综述论文，37页pdf，171篇参考文献，Affective Computing for Large-Scale Heterogeneous Multimedia Data: A Survey

专知会员服务

32+阅读 · 2019年11月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

两类带导数的非线性Schrodinger方程拟周期解的存在性

国家自然科学基金

0+阅读 · 2015年12月31日

血浆D-dimer检测恶性肿瘤血行微转移的临床价值评估及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分形市场中分数阶导数期权定价模型的建立、解法与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

整合大数据挖掘与路网脆弱性评估的疏散交通管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

磁共振图像刚性运动伪影消除中的稀疏正则化模型及其高效算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

高时效性商品在线多属性逆向拍卖定价决策与商业模式选择

国家自然科学基金

0+阅读 · 2012年12月31日

多标签分类中的特征提取与选择方法研究

国家自然科学基金

4+阅读 · 2012年12月31日

广义Kloosterman和的均值估计

国家自然科学基金

1+阅读 · 2011年12月31日

逆向中子输运问题的数值方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

Self-tuned robust mean estimators

Arxiv

0+阅读 · 2023年5月26日

Lost in the Shuffle: Testing Power in the Presence of Errorful Network Vertex Labels

Arxiv

0+阅读 · 2023年5月25日

Ordered and Binary Speaker Embedding

Arxiv

0+阅读 · 2023年5月25日

Pay More Attention to Relation Exploration for Knowledge Base Question Answering

Arxiv

0+阅读 · 2023年5月25日

Design-Based Confidence Sequences: A General Approach to Risk Mitigation in Online Experimentation

Arxiv

0+阅读 · 2023年5月25日

Improved Metric Distortion via Threshold Approvals

Arxiv

0+阅读 · 2023年5月24日

Unlocking Temporal Question Answering for Large Language Models Using Code Execution

Arxiv

0+阅读 · 2023年5月24日

MuLER: Detailed and Scalable Reference-based Evaluation

Arxiv

0+阅读 · 2023年5月24日

Restricted Mean Survival Time Estimation Using Bayesian Nonparametric Dependent Mixture Models

Arxiv

0+阅读 · 2023年5月24日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

9+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

3+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

5+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

7+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

9+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

9+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

专知会员服务

60+阅读 · 2022年5月5日

【阿姆斯特丹大学Erik J Bekkers】群等变深度学习介绍，Introduction to group equivariant deep learning

【阿姆斯特丹大学Erik J Bekkers】群等变深度学习介绍，Introduction to group equivariant deep learning

专知会员服务

27+阅读 · 2022年3月27日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

19+阅读 · 2021年12月12日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

52+阅读 · 2020年12月14日

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

【SIGIR2020】一个统一的双视图模型，用于具有不一致性损失的评论总结和情绪分类，A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss

专知会员服务

22+阅读 · 2020年6月3日

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

专知会员服务

33+阅读 · 2020年3月23日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【伯克利 | 情感计算】大规模异构多媒体数据的情感计算:综述论文，37页pdf，171篇参考文献，Affective Computing for Large-Scale Heterogeneous Multimedia Data: A Survey

【伯克利 | 情感计算】大规模异构多媒体数据的情感计算:综述论文，37页pdf，171篇参考文献，Affective Computing for Large-Scale Heterogeneous Multimedia Data: A Survey

专知会员服务

32+阅读 · 2019年11月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

相关论文

Self-tuned robust mean estimators

Arxiv

0+阅读 · 2023年5月26日

Lost in the Shuffle: Testing Power in the Presence of Errorful Network Vertex Labels

Arxiv

0+阅读 · 2023年5月25日

Ordered and Binary Speaker Embedding

Arxiv

0+阅读 · 2023年5月25日

Pay More Attention to Relation Exploration for Knowledge Base Question Answering

Arxiv

0+阅读 · 2023年5月25日

Design-Based Confidence Sequences: A General Approach to Risk Mitigation in Online Experimentation

Arxiv

0+阅读 · 2023年5月25日

Improved Metric Distortion via Threshold Approvals

Arxiv

0+阅读 · 2023年5月24日

Unlocking Temporal Question Answering for Large Language Models Using Code Execution

Arxiv

0+阅读 · 2023年5月24日

MuLER: Detailed and Scalable Reference-based Evaluation

Arxiv

0+阅读 · 2023年5月24日

Restricted Mean Survival Time Estimation Using Bayesian Nonparametric Dependent Mixture Models

Arxiv

0+阅读 · 2023年5月24日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

相关基金

两类带导数的非线性Schrodinger方程拟周期解的存在性

国家自然科学基金

0+阅读 · 2015年12月31日

血浆D-dimer检测恶性肿瘤血行微转移的临床价值评估及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分形市场中分数阶导数期权定价模型的建立、解法与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

整合大数据挖掘与路网脆弱性评估的疏散交通管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

磁共振图像刚性运动伪影消除中的稀疏正则化模型及其高效算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

高时效性商品在线多属性逆向拍卖定价决策与商业模式选择

国家自然科学基金

0+阅读 · 2012年12月31日

多标签分类中的特征提取与选择方法研究

国家自然科学基金

4+阅读 · 2012年12月31日

广义Kloosterman和的均值估计

国家自然科学基金

1+阅读 · 2011年12月31日

逆向中子输运问题的数值方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员