PET-TURTLE：面向不平衡数据簇的深度无监督支持向量机 (PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters) - 专知论文

会员服务 ·

0

不平衡 · 无监督 · 监督 · 支持向量机 · 不平衡数据 ·

PET-TURTLE: Deep Unsupervised Support Vector Machines for Imbalanced Data Clusters

翻译：PET-TURTLE：面向不平衡数据簇的深度无监督支持向量机

Javier Salazar Cavazos

Foundation vision, audio, and language models enable zero-shot performance on downstream tasks via their latent representations. Recently, unsupervised learning of data group structure with deep learning methods has gained popularity. TURTLE, a state of the art deep clustering algorithm, uncovers data labeling without supervision by alternating label and hyperplane updates, maximizing the hyperplane margin, in a similar fashion to support vector machines (SVMs). However, TURTLE assumes clusters are balanced; when data is imbalanced, it yields non-ideal hyperplanes that cause higher clustering error. We propose PET-TURTLE, which generalizes the cost function to handle imbalanced data distributions by a power law prior. Additionally, by introducing sparse logits in the labeling process, PET-TURTLE optimizes a simpler search space that in turn improves accuracy for balanced datasets. Experiments on synthetic and real data show that PET-TURTLE improves accuracy for imbalanced sources, prevents over-prediction of minority clusters, and enhances overall clustering.

翻译：基础视觉、音频和语言模型能够通过其潜在表征在下游任务上实现零样本性能。近年来，利用深度学习方法无监督学习数据分组结构日益受到关注。TURTLE是一种先进的深度聚类算法，它以类似于支持向量机（SVM）的方式，通过交替更新标签和超平面、最大化超平面间隔，在无监督条件下揭示数据标签。然而，TURTLE假设簇是平衡的；当数据不平衡时，它会产生非理想的超平面，从而导致更高的聚类误差。我们提出了PET-TURTLE，它通过幂律先验推广了损失函数，以处理不平衡的数据分布。此外，通过在标签过程中引入稀疏逻辑值，PET-TURTLE优化了更简单的搜索空间，从而提高了平衡数据集的准确性。在合成数据和真实数据上的实验表明，PET-TURTLE提高了不平衡数据源的准确性，防止了对少数簇的过度预测，并增强了整体聚类性能。

0

相关内容

不平衡

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

专知会员服务

38+阅读 · 2022年8月26日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

专知会员服务

74+阅读 · 2021年2月28日

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

26+阅读 · 2021年1月18日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【ECCV2020-海康威视】用于深度表示学习的无监督图像分类

专知会员服务

70+阅读 · 2020年7月6日

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

机器学习算法与Python学习

10+阅读 · 2018年9月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

【干货】Python无监督学习的4大聚类算法

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于紧支径向基函数的支持向量机多尺度反演算法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

DeepGB-TB: A Risk-Balanced Cross-Attention Gradient-Boosted Convolutional Network for Rapid, Interpretable Tuberculosis Screening

Arxiv

0+阅读 · 2月2日

TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection

Arxiv

0+阅读 · 2月1日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

An efficient, accurate, and interpretable machine learning method for computing probability of failure

Arxiv

0+阅读 · 1月28日

Unsupervised Ensemble Learning Through Deep Energy-based Models

Arxiv

0+阅读 · 1月28日

Unsupervised Video Class-Incremental Learning via Deep Embedded Clustering Management

Arxiv

0+阅读 · 1月20日

A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data

Arxiv

0+阅读 · 1月12日

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

Arxiv

0+阅读 · 1月7日

Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss

Arxiv

0+阅读 · 2025年12月31日

ForensicFlow: A Tri-Modal Adaptive Network for Robust Deepfake Detection

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

支持向量机

不平衡数据

相关VIP内容

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

专知会员服务

38+阅读 · 2022年8月26日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

专知会员服务

74+阅读 · 2021年2月28日

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

26+阅读 · 2021年1月18日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【ECCV2020-海康威视】用于深度表示学习的无监督图像分类

专知会员服务

70+阅读 · 2020年7月6日

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

机器学习算法与Python学习

10+阅读 · 2018年9月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

【干货】Python无监督学习的4大聚类算法

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

相关论文

DeepGB-TB: A Risk-Balanced Cross-Attention Gradient-Boosted Convolutional Network for Rapid, Interpretable Tuberculosis Screening

Arxiv

0+阅读 · 2月2日

TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection

Arxiv

0+阅读 · 2月1日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

An efficient, accurate, and interpretable machine learning method for computing probability of failure

Arxiv

0+阅读 · 1月28日

Unsupervised Ensemble Learning Through Deep Energy-based Models

Arxiv

0+阅读 · 1月28日

Unsupervised Video Class-Incremental Learning via Deep Embedded Clustering Management

Arxiv

0+阅读 · 1月20日

A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data

Arxiv

0+阅读 · 1月12日

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

Arxiv

0+阅读 · 1月7日

Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss

Arxiv

0+阅读 · 2025年12月31日

ForensicFlow: A Tri-Modal Adaptive Network for Robust Deepfake Detection

Arxiv

0+阅读 · 2025年12月30日

相关基金

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于紧支径向基函数的支持向量机多尺度反演算法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员