As retrieval models converge on generic benchmarks, the pressing question is no longer "who scores higher" but rather "where do systems fail, and why?" Person-job matching is a domain that urgently demands such diagnostic capability -- it requires systems not only to verify explicit constraints but also to perform skill-transfer inference and job-competency reasoning, yet existing benchmarks provide no systematic diagnostic support for this task. We introduce PJB (Person-Job Benchmark), a reasoning-aware retrieval evaluation dataset that uses complete job descriptions as queries and complete resumes as documents, defines relevance through job-competency judgment, is grounded in real-world recruitment data spanning six industry domains and nearly 200,000 resumes, and upgrades evaluation from "who scores higher" to "where do systems differ, and why" through domain-family and reasoning-type diagnostic labels. Diagnostic experiments using dense retrieval reveal that performance heterogeneity across industry domains far exceeds the gains from module upgrades for the same model, indicating that aggregate scores alone can severely mislead optimization decisions. At the module level, reranking yields stable improvements while query understanding not only fails to help but actually degrades overall performance when combined with reranking -- the two modules face fundamentally different improvement bottlenecks. The value of PJB lies not in yet another leaderboard of average scores, but in providing recruitment retrieval systems with a capability map that pinpoints where to invest.


翻译:随着检索模型在通用基准测试上的性能趋于收敛,紧迫的问题不再是“谁的得分更高”,而是“系统在何处失败,以及为何失败?”人岗匹配是一个亟需此类诊断能力的领域——它不仅要求系统验证显性约束,还需要进行技能迁移推理和岗位胜任力推断,然而现有基准测试并未为此任务提供系统性诊断支持。我们提出了PJB(人岗匹配基准测试),这是一个推理感知的检索评估数据集:它以完整职位描述作为查询,完整简历作为文档;通过岗位胜任力判断定义相关性;基于覆盖六大行业领域、近20万份简历的真实招聘数据构建;并通过领域族和推理类型的诊断标签,将评估从“谁得分更高”升级为“系统在何处存在差异,以及为何存在差异”。使用稠密检索模型进行的诊断实验表明:跨行业领域的性能异质性远超同一模型模块升级带来的增益,这说明仅依赖聚合分数会严重误导优化决策。在模块层面,重排序能带来稳定的性能提升,而查询理解不仅未能提供帮助,在与重排序结合时甚至会降低整体性能——这两个模块面临着本质不同的改进瓶颈。PJB的价值不在于提供又一个平均分数排行榜,而在于为招聘检索系统提供一张能力地图,精准指明研发投入的方向。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年2月21日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
PFLD:简单高效的实用人脸关键点检测算法
PaperWeekly
20+阅读 · 2019年4月17日
组织|详解阿里巴巴HRBP的能力素质模型
智慧云董事会
30+阅读 · 2019年1月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
专知会员服务
30+阅读 · 2021年2月21日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员