Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.


翻译:神经嵌入存在一个显著的盲区:它们无法可靠地区分同义词与反义词。因此,单纯提高相似度阈值往往难以阻止反义词被错误归入同一类别。我们构建了一个专门针对此问题的大规模语义聚类系统。该流水线处理了1500万个词汇单元,评估了5.2亿个潜在语义关系,最终生成了290万个高精度语义聚类簇。本系统主要包含三项贡献:首先,我们构建了一个包含84.3万个概念对的标注数据集,涵盖同义、反义及共类义关系,该数据集通过Gemini 2.5-Flash大语言模型增强生成,并利用人工编纂词典资源进行了验证。其次,我们提出了一种专用的三元语义关系判别器,其宏观F1值达到90%,能够实现超越原始嵌入相似度的鲁棒消歧。最后,我们设计了一种新颖的软聚类到硬聚类算法,该算法既能抑制导致错误传递链(例如:热→辣→疼痛→抑郁)的语义漂移,又能同步解决多义性问题。我们的方法采用基于拓扑感知的两阶段扩展-剪枝流程,结合拓扑投票机制,确保每个术语被精确分配至一个语义连贯的聚类簇。最终构建的资源支持高精度语义搜索与检索增强生成,尤其适用于形态复杂且现有同义词数据库稀缺的低资源语言。

0
下载
关闭预览

相关内容

【NeurIPS2023】基于语义对齐的潜空间翻译
专知会员服务
21+阅读 · 2023年11月2日
用Attention玩转CV,一文总览自注意力语义分割进展
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【NeurIPS2023】基于语义对齐的潜空间翻译
专知会员服务
21+阅读 · 2023年11月2日
相关资讯
用Attention玩转CV,一文总览自注意力语义分割进展
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员