Measurement-constrained problems frequently arise in modern applications such as electronic health record studies. In such problems, despite the availability of large datasets, collecting labeled data can be highly costly or time-consuming, allowing only a small portion of the data to be labeled within a given budget. This raises a critical question: which data points are most beneficial to label given the budget constraint? We study this question in the context of estimating an optimal individualized threshold under a measurement-constrained M-estimation framework. In particular, our goal is to estimate a high-dimensional parameter $θ$ in a linear threshold $θ^TZ$ for a continuous variable $X$ such that the discrepancy between whether $X$ exceeds the threshold $θ^TZ$ and a binary outcome $Y$ is minimized. In the measurement-constrained setting, we propose a novel $K$-step active subsampling algorithm to estimate $θ$, which iteratively samples the most informative observations in the dataset and solves a regularized M-estimator. Our theoretical analysis reveals a sharp phase transition phenomenon with respect to $β$, the smoothness of the conditional density of $X$ given $Y$ and $Z$. Please see the paper for the full abstract.


翻译:测量受限问题在电子健康记录研究等现代应用中频繁出现。在此类问题中,尽管可获得大规模数据集,但收集标注数据可能成本高昂或耗时,使得在给定预算内仅能标注少量数据。这引出一个关键问题:在预算约束下,哪些数据点的标注最具价值?我们围绕测量受限M估计框架下的最优个体化阈值估计问题开展研究。具体而言,我们的目标是估计线性阈值θᵀZ中的高维参数θ(其中Z为连续变量X的协变量),使得X是否超过阈值θᵀZ与二元结果Y之间的差异最小化。在测量受限场景中,我们提出一种新颖的K步主动降采样算法来估计θ,该算法通过迭代选取数据集中最具信息量的观测值,并求解正则化M估计量。理论分析揭示了关于β(给定Y和Z条件下X的条件密度平滑度)的尖锐相变现象。完整摘要请参见论文原文。

0
下载
关闭预览

相关内容

标注受限场景下的视觉表征与理解
专知会员服务
14+阅读 · 2025年2月6日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
小样本目标检测研究综述
专知会员服务
69+阅读 · 2023年8月6日
专知会员服务
22+阅读 · 2021年5月14日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员