This paper empirically examines the practical validity of the official evaluation criteria underpinning the Research Productivity (PQ) Grant framework, as governed by the Brazilian National Council for Scientific and Technological Development (CNPq). By operationalizing regulatory dimensions (including bibliographic output, human resource training, and scientific recognition) as measurable variables extracted from CVs and OpenAlex bibliometric data, we treat policy-defined indicators as testable hypotheses rather than a priori assumptions. Using a block-based adaptation of the Boruta feature selection algorithm across several machine learning classifiers, we evaluate the statistical contribution of each dimension in distinguishing grant levels, with a focus on identifying top-tier (Level 1A) researchers. Our models achieve high predictive performance, with mean AUC scores reaching 0.96, indicating that PQ levels carry a robust and structured statistical signal. However, explanatory power is heavily concentrated within a limited subset of features, specifically bibliographic production, graduate-level supervision and institutional management roles. Conversely, several criteria explicitly emphasized in the regulations demonstrated no detectable statistical contribution to classification outcomes. These findings reveal a potential misalignment between the formal regulatory framework and the effective signals driving evaluation outcomes, suggesting that the practical evaluative signal is substantially more compact than officially stated and providing evidence-based insights for the refinement and transparency of research assessment policies.


翻译:本文实证检验了巴西国家科学技术发展委员会(CNPq)所管辖的科研生产力(PQ)资助框架中官方评估标准的实际有效性。通过将法规维度(包括文献产出、人力资源培养和科学认可度)操作化为从简历和OpenAlex文献计量数据中提取的可测量变量,我们将政策定义的指标视为可检验的假设而非先验假设。采用基于分块的Boruta特征选择算法,结合多种机器学习分类器,我们评估了每个维度在区分资助级别中的统计贡献,重点关注顶级(1A级)研究人员的识别。我们的模型实现了高预测性能,平均AUC得分达到0.96,表明PQ级别承载着稳健且结构化的统计信号。然而,解释力高度集中于有限的特征子集,具体表现为文献产出、研究生指导及机构管理角色。相反,法规中明确强调的若干标准在分类结果中未显示出可检测的统计贡献。这些发现揭示了正式监管框架与驱动评估结果的有效信号之间潜在的不匹配,表明实际评估信号比官方声明更为精简,并为研究评估政策的完善和透明度提供了基于证据的见解。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
国家标准《人工智能深度学习算法评估》(征求意见稿)
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
77+阅读 · 2023年7月4日
专知会员服务
64+阅读 · 2021年6月22日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员