面向依赖决策基准的构建 (Towards a Benchmark for Dependency Decision-Making) - 专知论文

会员服务 ·

0

基准 · 构建 · 软件 · 系统 · 态势 ·

Towards a Benchmark for Dependency Decision-Making

翻译：面向依赖决策基准的构建

Tanmay Singla,Berk Çakar,Paschal C. Amusuo,James C. Davis

from arxiv, Under review at JAWS 2026. 5 pages, 1 figures, 2 tables

AI coding agents increasingly modify real software repositories and make dependency decisions, including adding, removing, or updating third-party packages. These choices can materially affect security posture and maintenance burden, yet repository-level evaluations largely emphasize test passing and executability without explicitly scoring whether systems (i) reuse existing dependencies, (ii) avoid unnecessary additions, or (iii) select versions that satisfy security and policy constraints. We propose DepDec-Bench, a benchmark for evaluating dependency decision-making beyond functional correctness. To ground DepDec-Bench in real-world behavior, we conduct a preliminary study of 117,062 dependency changes from agent- and human-authored pull requests across seven ecosystems. We show that coding agents frequently make dependency decisions with security consequences that remain invisible to test-focused evaluation: agents select PR-time known-vulnerable versions (2.46%) and exhibit net-negative security impact overall (net impact -98 vs. +1,316 for humans). These observations inform DepDec-Bench task families and metrics that evaluate safe version selection, reuse discipline, and restraint against dependency bloat alongside test passing.

翻译：人工智能编码代理日益频繁地修改实际软件仓库并做出依赖决策，包括添加、移除或更新第三方软件包。这些选择可能实质性地影响安全态势和维护负担，然而仓库层面的评估主要强调测试通过率和可执行性，并未明确评估系统是否：(i) 复用现有依赖项，(ii) 避免不必要的添加，或(iii) 选择满足安全性和策略约束的版本。我们提出DepDec-Bench，这是一个超越功能正确性、专门评估依赖决策能力的基准。为使DepDec-Bench立足于真实世界行为，我们对来自七个生态系统中由代理和人工提交的拉取请求所涉及的117,062个依赖变更进行了初步研究。研究表明，编码代理经常做出具有安全影响的依赖决策，而这些影响在专注于测试的评估中不可见：代理会选择在拉取请求提交时已知存在漏洞的版本（2.46%），并且总体上表现出净负面的安全影响（净影响为-98，而人类为+1,316）。这些观察结果为DepDec-Bench的任务系列和评估指标提供了依据，这些指标在测试通过率之外，还评估安全版本选择、复用规范以及对依赖膨胀的克制能力。

0

相关内容

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

29+阅读 · 2025年12月13日

《影响对人工智能决策支持系统依赖度的关键因素》304页

《影响对人工智能决策支持系统依赖度的关键因素》304页

专知会员服务

28+阅读 · 2025年4月24日

《C-XAI：可解释人工智能接口的设计方法，以增强信任校准》256页博士论文

《C-XAI：可解释人工智能接口的设计方法，以增强信任校准》256页博士论文

专知会员服务

34+阅读 · 2024年5月3日

《AI/ML 供应链软件依赖性风险分析》2023最新95页论文

《AI/ML 供应链软件依赖性风险分析》2023最新95页论文

专知会员服务

39+阅读 · 2023年12月19日

【普林斯顿博士论文】面向决策的模型正则化机器学习，199页pdf

【普林斯顿博士论文】面向决策的模型正则化机器学习，199页pdf

专知会员服务

35+阅读 · 2023年7月22日

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

专知会员服务

137+阅读 · 2023年7月10日

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

专知会员服务

65+阅读 · 2022年9月22日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

33+阅读 · 2022年7月31日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

Towards Selection as Power: Bounding Decision Authority in Autonomous Agents

Arxiv

0+阅读 · 2月16日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Behavioral Indicators of Overreliance During Interaction with Conversational Language Models

Arxiv

0+阅读 · 2月12日

On Decision-Valued Maps and Representational Dependence

Arxiv

0+阅读 · 2月11日

Improving Code Localization with Repository Memory

Arxiv

0+阅读 · 2月6日

RAL-Bench: Benchmarking for Application-Level Functional Correctness and Non-Functional Quality Attributes

Arxiv

0+阅读 · 2月3日

From Sycophancy to Sensemaking: Premise Governance for Human-AI Decision Making

Arxiv

0+阅读 · 2月2日

Investigating Test Overfitting on SWE-bench

Arxiv

0+阅读 · 1月27日

Adjust for Trust: Mitigating Trust-Induced Inappropriate Reliance on AI Assistance

Arxiv

0+阅读 · 1月26日

YRC-Bench: A Benchmark for Learning to Coordinate with Experts

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

29+阅读 · 2025年12月13日

《影响对人工智能决策支持系统依赖度的关键因素》304页

《影响对人工智能决策支持系统依赖度的关键因素》304页

专知会员服务

28+阅读 · 2025年4月24日

《C-XAI：可解释人工智能接口的设计方法，以增强信任校准》256页博士论文

《C-XAI：可解释人工智能接口的设计方法，以增强信任校准》256页博士论文

专知会员服务

34+阅读 · 2024年5月3日

《AI/ML 供应链软件依赖性风险分析》2023最新95页论文

《AI/ML 供应链软件依赖性风险分析》2023最新95页论文

专知会员服务

39+阅读 · 2023年12月19日

【普林斯顿博士论文】面向决策的模型正则化机器学习，199页pdf

【普林斯顿博士论文】面向决策的模型正则化机器学习，199页pdf

专知会员服务

35+阅读 · 2023年7月22日

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

专知会员服务

137+阅读 · 2023年7月10日

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

【博士论文】《网络系统中安全资源分配的博弈论框架中行为决策效应》普渡大学2022最新论文

专知会员服务

65+阅读 · 2022年9月22日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

33+阅读 · 2022年7月31日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

相关论文

Towards Selection as Power: Bounding Decision Authority in Autonomous Agents

Arxiv

0+阅读 · 2月16日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Behavioral Indicators of Overreliance During Interaction with Conversational Language Models

Arxiv

0+阅读 · 2月12日

On Decision-Valued Maps and Representational Dependence

Arxiv

0+阅读 · 2月11日

Improving Code Localization with Repository Memory

Arxiv

0+阅读 · 2月6日

RAL-Bench: Benchmarking for Application-Level Functional Correctness and Non-Functional Quality Attributes

Arxiv

0+阅读 · 2月3日

From Sycophancy to Sensemaking: Premise Governance for Human-AI Decision Making

Arxiv

0+阅读 · 2月2日

Investigating Test Overfitting on SWE-bench

Arxiv

0+阅读 · 1月27日

Adjust for Trust: Mitigating Trust-Induced Inappropriate Reliance on AI Assistance

Arxiv

0+阅读 · 1月26日

YRC-Bench: A Benchmark for Learning to Coordinate with Experts

Arxiv

0+阅读 · 1月13日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员