Contextual Embedding-based Clustering to Identify Topics for Healthcare Service Improvement - 专知论文

会员服务 ·

0

嵌入 · 识别 · 分析 · 监督 · 连贯性 ·

Contextual Embedding-based Clustering to Identify Topics for Healthcare Service Improvement

翻译：基于上下文嵌入的聚类识别医疗服务质量改进主题

K M Sajjadul Islam,Ravi Teja Karri,Srujan Vegesna,Jiawei Wu,Praveen Madiraju

from arxiv, The paper accepted at the 2025 IEEE COMPSAC, Toronto, Canada

Understanding patient feedback is crucial for improving healthcare services, yet analyzing unlabeled short-text feedback presents challenges due to limited data and domain-specific nuances. Traditional supervised approaches require extensive labeled datasets, making unsupervised methods more practical for extracting insights. This study applies unsupervised techniques to analyze 439 survey responses from a healthcare system in Wisconsin, USA. A keyword-based filter was used to isolate complaint-related feedback using a domain-specific lexicon. To identify dominant themes, we evaluated traditional topic models such as Latent Dirichlet Allocation (LDA) and Gibbs Sampling Dirichlet Multinomial Mixture (GSDMM) -- alongside BERTopic, a neural embedding-based clustering method. To improve coherence and interpretability in sparse, short-text data, we propose kBERT, which integrates BERT embeddings with k-means clustering. Model performance was assessed using coherence scores (Cv ) and average Inverted Rank-Biased Overlap (IRBOavg). kBERT achieved the highest coherence (Cv = 0.53) and topic separation (IRBOavg = 1.00), outperforming all other models. These findings highlight the value of embedding-based, context-aware models in healthcare analytics.

翻译：理解患者反馈对于改进医疗服务至关重要，然而分析未标记的短文本反馈因数据有限和领域特定细微差别而面临挑战。传统监督方法需要大量标记数据集，使得无监督方法在提取洞察方面更为实用。本研究应用无监督技术分析了来自美国威斯康星州某医疗系统的439份调查回复。使用基于关键词的过滤器，通过领域特定词典隔离了投诉相关反馈。为识别主导主题，我们评估了传统主题模型，如潜在狄利克雷分配（LDA）和吉布斯采样狄利克雷多项混合（GSDMM），以及基于神经嵌入的聚类方法BERTopic。为提高稀疏短文本数据的连贯性和可解释性，我们提出了kBERT模型，该模型将BERT嵌入与k-means聚类相结合。使用连贯性分数（Cv）和平均逆秩偏重叠度（IRBOavg）评估模型性能。kBERT获得了最高的连贯性（Cv = 0.53）和主题分离度（IRBOavg = 1.00），优于所有其他模型。这些发现凸显了基于嵌入的上下文感知模型在医疗分析中的价值。

0

相关内容

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

专知会员服务

13+阅读 · 3月11日

【博士论文】结合图像与文本以提升医学图像理解

【博士论文】结合图像与文本以提升医学图像理解

专知会员服务

30+阅读 · 2025年3月1日

医学数据标注太贵费时怎么做？Google最新《自监督学习医学影像处理》报告，附Slides与视频

医学数据标注太贵费时怎么做？Google最新《自监督学习医学影像处理》报告，附Slides与视频

专知会员服务

50+阅读 · 2023年3月8日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

【用强化学习转变医疗保健服务白皮书】Transforming healthcare with Reinforcement Learning

【用强化学习转变医疗保健服务白皮书】Transforming healthcare with Reinforcement Learning

专知会员服务

14+阅读 · 2022年2月26日

【AAAI2022】通过自训练加强反事实分类

【AAAI2022】通过自训练加强反事实分类

专知会员服务

25+阅读 · 2021年12月10日

医疗健康领域的短文本理解

医疗健康领域的短文本理解

专知会员服务

33+阅读 · 2021年1月2日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

【综述】智能医疗综述，48页论文详述医学AI最新进展

【综述】智能医疗综述，48页论文详述医学AI最新进展

专知

41+阅读 · 2019年9月11日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

医学知识图谱构建技术与研究进展

医学知识图谱构建技术与研究进展

全球人工智能

19+阅读 · 2017年11月13日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于在线医疗社区的医患交互机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Improving Neural Retrieval with Attribution-Guided Query Rewriting

Arxiv

0+阅读 · 2月12日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

MedVAL: Toward Expert-Level Medical Text Validation with Language Models

Arxiv

0+阅读 · 2月6日

Diffusion-based Layer-wise Semantic Reconstruction for Unsupervised Out-of-Distribution Detection

Arxiv

0+阅读 · 2月2日

From Cold Start to Active Learning: Embedding-Based Scan Selection for Medical Image Segmentation

Arxiv

0+阅读 · 1月30日

Unsupervised Text Segmentation via Kernel Change-Point Detection on Sentence Embeddings

Arxiv

0+阅读 · 1月26日

Domain-invariant Mixed-domain Semi-supervised Medical Image Segmentation with Clustered Maximum Mean Discrepancy Alignment

Arxiv

0+阅读 · 1月23日

From Generation to Collaboration: Using LLMs to Edit for Empathy in Healthcare

Arxiv

0+阅读 · 1月22日

Scalable Stewardship of an LLM-Assisted Clinical Benchmark with Physician Oversight

Arxiv

0+阅读 · 1月21日

Unsupervised Video Class-Incremental Learning via Deep Embedded Clustering Management

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

专知会员服务

13+阅读 · 3月11日

【博士论文】结合图像与文本以提升医学图像理解

【博士论文】结合图像与文本以提升医学图像理解

专知会员服务

30+阅读 · 2025年3月1日

医学数据标注太贵费时怎么做？Google最新《自监督学习医学影像处理》报告，附Slides与视频

医学数据标注太贵费时怎么做？Google最新《自监督学习医学影像处理》报告，附Slides与视频

专知会员服务

50+阅读 · 2023年3月8日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

【用强化学习转变医疗保健服务白皮书】Transforming healthcare with Reinforcement Learning

【用强化学习转变医疗保健服务白皮书】Transforming healthcare with Reinforcement Learning

专知会员服务

14+阅读 · 2022年2月26日

【AAAI2022】通过自训练加强反事实分类

【AAAI2022】通过自训练加强反事实分类

专知会员服务

25+阅读 · 2021年12月10日

医疗健康领域的短文本理解

医疗健康领域的短文本理解

专知会员服务

33+阅读 · 2021年1月2日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

【综述】智能医疗综述，48页论文详述医学AI最新进展

【综述】智能医疗综述，48页论文详述医学AI最新进展

专知

41+阅读 · 2019年9月11日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

医学知识图谱构建技术与研究进展

医学知识图谱构建技术与研究进展

全球人工智能

19+阅读 · 2017年11月13日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

相关论文

Improving Neural Retrieval with Attribution-Guided Query Rewriting

Arxiv

0+阅读 · 2月12日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

MedVAL: Toward Expert-Level Medical Text Validation with Language Models

Arxiv

0+阅读 · 2月6日

Diffusion-based Layer-wise Semantic Reconstruction for Unsupervised Out-of-Distribution Detection

Arxiv

0+阅读 · 2月2日

From Cold Start to Active Learning: Embedding-Based Scan Selection for Medical Image Segmentation

Arxiv

0+阅读 · 1月30日

Unsupervised Text Segmentation via Kernel Change-Point Detection on Sentence Embeddings

Arxiv

0+阅读 · 1月26日

Domain-invariant Mixed-domain Semi-supervised Medical Image Segmentation with Clustered Maximum Mean Discrepancy Alignment

Arxiv

0+阅读 · 1月23日

From Generation to Collaboration: Using LLMs to Edit for Empathy in Healthcare

Arxiv

0+阅读 · 1月22日

Scalable Stewardship of an LLM-Assisted Clinical Benchmark with Physician Oversight

Arxiv

0+阅读 · 1月21日

Unsupervised Video Class-Incremental Learning via Deep Embedded Clustering Management

Arxiv

0+阅读 · 1月20日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于在线医疗社区的医患交互机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员