Skill extraction is a critical component of modern recruitment systems, enabling efficient job matching, personalized recommendations, and labor market analysis. Despite Türkiye's significant role in the global workforce, Turkish, a morphologically complex language, lacks both a skill taxonomy and a dedicated skill extraction dataset, resulting in underexplored research in skill extraction for Turkish. This article seeks the answers to three research questions: 1) How can skill extraction be effectively performed for this language, in light of its low resource nature? 2)~What is the most promising model? 3) What is the impact of different Large Language Models (LLMs) and prompting strategies on skill extraction (i.e., dynamic vs. static few-shot samples, varying context information, and encouraging causal reasoning)? The article introduces the first Turkish skill extraction dataset and performance evaluations of automated skill extraction using LLMs. The manually annotated dataset contains 4,819 labeled skill spans from 327 job postings across different occupation areas. The use of LLM outperforms supervised sequence labeling when used in an end-to-end pipeline, aligning extracted spans with standardized skills in the ESCO taxonomy more effectively. The best-performing configuration, utilizing Claude Sonnet 3.7 with dynamic few-shot prompting for skill identification, embedding-based retrieval, and LLM-based reranking for skill linking, achieves an end-to-end performance of 0.56, positioning Turkish alongside similar studies in other languages, which are few in the literature. Our findings suggest that LLMs can improve skill extraction performance in low-resource settings, and we hope that our work will accelerate similar research on skill extraction for underrepresented languages.


翻译:技能提取是现代招聘系统的关键组成部分,能够实现高效的职位匹配、个性化推荐和劳动力市场分析。尽管土耳其在全球劳动力市场中扮演着重要角色,但土耳其语作为一种形态复杂的语言,既缺乏技能分类体系,也缺少专门的技能提取数据集,导致针对土耳其语的技能提取研究尚未充分展开。本文旨在回答三个研究问题:1)鉴于土耳其语资源匮乏的特性,如何有效实现该语言的技能提取?2)最具前景的模型是什么?3)不同的大型语言模型(LLMs)及提示策略(如动态与静态少样本示例、不同上下文信息、以及鼓励因果推理)对技能提取有何影响?本文首次引入了土耳其语技能提取数据集,并评估了使用LLMs进行自动化技能提取的性能。该人工标注数据集包含来自327个不同职业领域招聘广告的4,819个已标注技能片段。在端到端流程中使用LLM时,其表现优于监督式序列标注方法,能更有效地将提取的技能片段与ESCO分类体系中的标准化技能对齐。最佳性能配置采用Claude Sonnet 3.7模型,通过动态少样本提示进行技能识别,结合基于嵌入的检索和基于LLM的重排序进行技能链接,实现了0.56的端到端性能,使土耳其语技能提取研究达到与少数文献中其他语言同类研究相当的水平。我们的研究结果表明,LLMs能够提升低资源场景下的技能提取性能,希望这项工作能加速针对资源不足语言的技能提取研究。

0
下载
关闭预览

相关内容

LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
不可错过!《大语言模型》课程
专知会员服务
28+阅读 · 2025年4月15日
大语言模型在电力系统中的应用初探
专知会员服务
25+阅读 · 2025年4月7日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
不可错过!斯坦福《语音语言处理》技术课程
专知会员服务
41+阅读 · 2022年5月2日
【翻译技术速递】测评:免费的术语抽取工具
翻译技术沙龙
139+阅读 · 2019年11月2日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
不可错过!《大语言模型》课程
专知会员服务
28+阅读 · 2025年4月15日
大语言模型在电力系统中的应用初探
专知会员服务
25+阅读 · 2025年4月7日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
不可错过!斯坦福《语音语言处理》技术课程
专知会员服务
41+阅读 · 2022年5月2日
相关资讯
【翻译技术速递】测评:免费的术语抽取工具
翻译技术沙龙
139+阅读 · 2019年11月2日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员