Social media text data are often used to train Machine Learning (ML) models to identify users exhibiting high-risk mental health behaviors. However, sharing this sensitive data poses privacy risks and limits the growth of benchmark datasets. We comprehensively evaluate whether privacy-preserving ML techniques can enable safer data sharing while preserving performance. Specifically, we apply federated learning (FL) and Differentially Private FL for two widely-studied mental health prediction tasks: depression detection on X (Twitter) and suicide crisis detection on Reddit. We simulate realistic data-sharing scenarios by treating each user as a client in a non-IID setting, evaluating across different client fractions, aggregation strategies, and privacy budgets. While FL achieves comparable performance to centralized training (centralized F1 = 85.63; best FL model F1 = 83.16) on depression identification, we find that Differentially Private FL has a large performance-privacy trade-off (up to F1 = 27.01 drop) even with low levels of noise (epsilon = 50). This is due to the distortion of highly informative yet sparse mental health linguistic markers related to mental health, like health topics and emotion words. This research empirically demonstrates the potential and limitations of current privacy preservation techniques for mental health inference tasks.


翻译:摘要:社交媒体文本数据常被用于训练机器学习模型,以识别表现出高风险心理健康行为的用户。然而,共享此类敏感数据会带来隐私风险,并限制了基准数据集的增长。我们全面评估了隐私保护机器学习技术能否在保持模型性能的同时实现更安全的数据共享。具体而言,我们针对两项广泛研究的心理健康预测任务:X(推特)上的抑郁症检测和Reddit上的自杀危机检测,应用了联邦学习(FL)和差分隐私联邦学习。通过将每个用户视为非独立同分布场景下的客户端,我们模拟了真实的数据共享情景,评估了不同客户端比例、聚合策略和隐私预算下的表现。结果表明,在抑郁症识别中,联邦学习达到了与集中训练(集中训练的F1值为85.63;最佳FL模型的F1值为83.16)相当的性能,但我们发现差分隐私联邦学习即使加入低水平噪声(epsilon=50)也显示出巨大的性能-隐私权衡(F1值下降高达27.01)。这源于与心理健康相关且高度信息丰富但稀疏的语言标记(如健康主题词和情感词)的扭曲。本研究实证展示了当前隐私保护技术在心理健康推断任务中的潜力与局限性。

0
下载
关闭预览

相关内容

「联邦学习系统攻击与防御技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月12日
【MIT博士论文】联邦学习实用方法,143页pdf
专知会员服务
66+阅读 · 2022年9月24日
联邦学习攻防研究综述
专知会员服务
39+阅读 · 2022年7月22日
专知会员服务
94+阅读 · 2021年7月23日
专知会员服务
127+阅读 · 2020年8月7日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员