We present a hybrid methodology for generating large-scale semantic relationship datasets in low-resource languages, demonstrated through a comprehensive Turkish semantic relations corpus. Our approach integrates three phases: (1) FastText embeddings with Agglomerative Clustering to identify semantic clusters, (2) Gemini 2.5-Flash for automated semantic relationship classification, and (3) integration with curated dictionary sources. The resulting dataset comprises 843,000 unique Turkish semantic pairs across three relationship types (synonyms, antonyms, co-hyponyms) representing a 10x scale increase over existing resources at minimal cost ($65). We validate the dataset through two downstream tasks: an embedding model achieving 90% top-1 retrieval accuracy and a classification model attaining 90% F1-macro. Our scalable protocol addresses critical data scarcity in Turkish NLP and demonstrates applicability to other low-resource languages. We publicly release the dataset and models.


翻译:我们提出了一种为低资源语言生成大规模语义关系数据集的混合方法,并通过一个全面的土耳其语语义关系语料库进行了演示。我们的方法整合了三个阶段:(1) 使用 FastText 词嵌入与凝聚聚类来识别语义簇,(2) 利用 Gemini 2.5-Flash 进行自动语义关系分类,以及 (3) 与精选词典资源进行整合。最终生成的数据集包含 843,000 个独特的土耳其语语义对,涵盖三种关系类型(同义词、反义词、共下位词),其规模是现有资源的 10 倍,而成本极低(65 美元)。我们通过两个下游任务验证了该数据集:一个嵌入模型实现了 90% 的 top-1 检索准确率,一个分类模型达到了 90% 的宏平均 F1 分数。我们可扩展的协议解决了土耳其语自然语言处理中关键的数据稀缺问题,并证明了其对其他低资源语言的适用性。我们公开发布了该数据集和模型。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《使用生成式大语言模型进行多语言事件提取》最新85页
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
收藏 | 中文公开聊天语料库及使用方法(附链接)
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
自然语言处理数据集免费资源开放(附学习资料)
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《使用生成式大语言模型进行多语言事件提取》最新85页
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
收藏 | 中文公开聊天语料库及使用方法(附链接)
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
自然语言处理数据集免费资源开放(附学习资料)
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员