Auditing automated research assessment: an interpretable machine learning approach to validate funding criteria - 专知论文

会员服务 ·

0

自动化 · 机器学习 · 有效性 · 操作 · 提取 ·

Auditing automated research assessment: an interpretable machine learning approach to validate funding criteria

翻译：审计自动化研究评估：一种可解释的机器学习方法验证资助标准

Rafael P. Gouveia,Thiago C. Silva,Diego R. Amancio

This paper empirically examines the practical validity of the official evaluation criteria underpinning the Research Productivity (PQ) Grant framework, as governed by the Brazilian National Council for Scientific and Technological Development (CNPq). By operationalizing regulatory dimensions (including bibliographic output, human resource training, and scientific recognition) as measurable variables extracted from CVs and OpenAlex bibliometric data, we treat policy-defined indicators as testable hypotheses rather than a priori assumptions. Using a block-based adaptation of the Boruta feature selection algorithm across several machine learning classifiers, we evaluate the statistical contribution of each dimension in distinguishing grant levels, with a focus on identifying top-tier (Level 1A) researchers. Our models achieve high predictive performance, with mean AUC scores reaching 0.96, indicating that PQ levels carry a robust and structured statistical signal. However, explanatory power is heavily concentrated within a limited subset of features, specifically bibliographic production, graduate-level supervision and institutional management roles. Conversely, several criteria explicitly emphasized in the regulations demonstrated no detectable statistical contribution to classification outcomes. These findings reveal a potential misalignment between the formal regulatory framework and the effective signals driving evaluation outcomes, suggesting that the practical evaluative signal is substantially more compact than officially stated and providing evidence-based insights for the refinement and transparency of research assessment policies.

翻译：本文实证检验了巴西国家科学技术发展委员会（CNPq）所管辖的科研生产力（PQ）资助框架中官方评估标准的实际有效性。通过将法规维度（包括文献产出、人力资源培养和科学认可度）操作化为从简历和OpenAlex文献计量数据中提取的可测量变量，我们将政策定义的指标视为可检验的假设而非先验假设。采用基于分块的Boruta特征选择算法，结合多种机器学习分类器，我们评估了每个维度在区分资助级别中的统计贡献，重点关注顶级（1A级）研究人员的识别。我们的模型实现了高预测性能，平均AUC得分达到0.96，表明PQ级别承载着稳健且结构化的统计信号。然而，解释力高度集中于有限的特征子集，具体表现为文献产出、研究生指导及机构管理角色。相反，法规中明确强调的若干标准在分类结果中未显示出可检测的统计贡献。这些发现揭示了正式监管框架与驱动评估结果的有效信号之间潜在的不匹配，表明实际评估信号比官方声明更为精简，并为研究评估政策的完善和透明度提供了基于证据的见解。

0

相关内容

自动化

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程，是一门涉及学科较多、应用广泛的综合性科学技术。

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

国家标准《人工智能深度学习算法评估》（征求意见稿）

国家标准《人工智能深度学习算法评估》（征求意见稿）

专知会员服务

91+阅读 · 2024年6月17日

《美国国家科学基金会的武器化：国家科学基金会如何资助开发 "大规模 "审查网络言论的自动工具并试图掩盖其行为》2024最新79页报告

《美国国家科学基金会的武器化：国家科学基金会如何资助开发 "大规模 "审查网络言论的自动工具并试图掩盖其行为》2024最新79页报告

专知会员服务

24+阅读 · 2024年2月26日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

77+阅读 · 2023年7月4日

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

专知会员服务

77+阅读 · 2022年12月20日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

《信息安全技术机器学习算法安全评估规范》国家标准意见稿，33页pdf

《信息安全技术机器学习算法安全评估规范》国家标准意见稿，33页pdf

专知会员服务

74+阅读 · 2022年2月26日

【CVPR2021教程】计算机视觉中的可解释机器学习

专知会员服务

64+阅读 · 2021年6月22日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

基于机器学习的KPI自动化异常检测系统

基于机器学习的KPI自动化异常检测系统

运维帮

13+阅读 · 2017年8月16日

基于动态相关机理分析的机械系统可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于“投入-产出”的专业学位质量评估模型的构建与实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

战略环境评价有效性评估指标体系与评估方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

Critically Engaged Pragmatism: Scientific Norm and Social, Pragmatist Epistemology for AI Science Evaluation Tools

Arxiv

0+阅读 · 6月12日

An Empirical Study of Automating Agent Evaluation

Arxiv

0+阅读 · 6月11日

Automated reproducibility assessments in the social and behavioral sciences using large language models

Arxiv

0+阅读 · 6月11日

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Arxiv

0+阅读 · 6月10日

$τ$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

Arxiv

0+阅读 · 6月8日

The State of Peer Review in Empirical Software Engineering: A Community Survey on Review Load, Quality, and GenAI Use

Arxiv

0+阅读 · 6月3日

ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review

Arxiv

0+阅读 · 5月14日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月12日

Rethinking Publication: A Certification Framework for AI-Enabled Research

Arxiv

0+阅读 · 5月11日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

国家标准《人工智能深度学习算法评估》（征求意见稿）

国家标准《人工智能深度学习算法评估》（征求意见稿）

专知会员服务

91+阅读 · 2024年6月17日

《美国国家科学基金会的武器化：国家科学基金会如何资助开发 "大规模 "审查网络言论的自动工具并试图掩盖其行为》2024最新79页报告

《美国国家科学基金会的武器化：国家科学基金会如何资助开发 "大规模 "审查网络言论的自动工具并试图掩盖其行为》2024最新79页报告

专知会员服务

24+阅读 · 2024年2月26日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

77+阅读 · 2023年7月4日

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

专知会员服务

77+阅读 · 2022年12月20日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

《信息安全技术机器学习算法安全评估规范》国家标准意见稿，33页pdf

《信息安全技术机器学习算法安全评估规范》国家标准意见稿，33页pdf

专知会员服务

74+阅读 · 2022年2月26日

【CVPR2021教程】计算机视觉中的可解释机器学习

专知会员服务

64+阅读 · 2021年6月22日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

基于机器学习的KPI自动化异常检测系统

基于机器学习的KPI自动化异常检测系统

运维帮

13+阅读 · 2017年8月16日

相关论文

Critically Engaged Pragmatism: Scientific Norm and Social, Pragmatist Epistemology for AI Science Evaluation Tools

Arxiv

0+阅读 · 6月12日

An Empirical Study of Automating Agent Evaluation

Arxiv

0+阅读 · 6月11日

Automated reproducibility assessments in the social and behavioral sciences using large language models

Arxiv

0+阅读 · 6月11日

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Arxiv

0+阅读 · 6月10日

$τ$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

Arxiv

0+阅读 · 6月8日

The State of Peer Review in Empirical Software Engineering: A Community Survey on Review Load, Quality, and GenAI Use

Arxiv

0+阅读 · 6月3日

ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review

Arxiv

0+阅读 · 5月14日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月12日

Rethinking Publication: A Certification Framework for AI-Enabled Research

Arxiv

0+阅读 · 5月11日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月11日

相关基金

基于动态相关机理分析的机械系统可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于“投入-产出”的专业学位质量评估模型的构建与实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

战略环境评价有效性评估指标体系与评估方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员