We study Aggregation Queries over Nearest Neighbors (AQNN), which compute aggregates over the learned representations of the neighborhood of a designated query object. For example, a medical professional may be interested in the average heart rate of patients whose representations are similar to that of an insomnia patient. Answering AQNNs accurately and efficiently is challenging due to the high cost of generating high-quality representations (e.g., via a deep learning model trained on human expert annotations) and the different sensitivities of different aggregation functions to neighbor selection errors. We address these challenges by combining high-quality and low-cost representations to approximate the aggregate. We characterize value- and count-sensitive AQNNs and propose the Sampler with Precision-Recall in Target (SPRinT), a query answering framework that works in three steps: (1) sampling, (2) nearest neighbor selection, and (3) aggregation. We further establish theoretical bounds on sample sizes and aggregation errors. Extensive experiments on five datasets from three domains (medical, social media, and e-commerce) demonstrate that SPRinT achieves the lowest aggregation error with minimal computation cost in most cases compared to existing solutions. SPRinT's performance remains stable as dataset size grows, confirming its scalability for large-scale applications requiring both accuracy and efficiency.


翻译:我们研究基于最近邻的聚合查询,该查询针对指定查询对象的邻域内习得表示计算聚合值。例如,医疗专业人员可能关注与失眠患者表示相似的患者群体的平均心率。由于生成高质量表示(例如通过基于人类专家标注训练的深度学习模型)的高昂成本,以及不同聚合函数对邻域选择误差的不同敏感度,准确高效地回答此类查询具有挑战性。我们通过结合高质量与低成本的表示来近似聚合值以应对这些挑战。我们区分了数值敏感型与计数敏感型聚合最近邻查询,并提出了目标精度-召回采样器——一个包含三个步骤的查询应答框架:(1)采样,(2)最近邻选择,以及(3)聚合。我们进一步建立了样本规模与聚合误差的理论边界。在来自医疗、社交媒体和电子商务三个领域的五个数据集上进行的大量实验表明,与现有解决方案相比,该框架在大多数情况下能以最小计算成本实现最低的聚合误差。其性能随数据集规模增长保持稳定,证实了该框架在需要兼顾准确性与效率的大规模应用中的可扩展性。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年1月7日
[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员