Enterprise agents increasingly operate inside scoped retrieval systems, delegated workflows, and policy-constrained evidence environments. In these settings, access control can be enforced correctly while the system still produces an answer that appears complete even though material evidence lies outside the caller's authorization boundary. This paper introduces Partial Evidence Bench, a deterministic benchmark for measuring that failure mode. The benchmark ships three scenario families -- due diligence, compliance audit, and security incident response -- with 72 tasks total, ACL-partitioned corpora, oracle complete answers, oracle authorized-view answers, oracle completeness judgments, and structured gap-report oracles. It evaluates systems along four surfaces: answer correctness, completeness awareness, gap-report quality, and unsafe completeness behavior. Checked-in baselines show that silent filtering is catastrophically unsafe across all shipped families, while explicit fail-and-report behavior eliminates unsafe completeness without collapsing the task into trivial abstention. Preliminary real-model runs show model-dependent and scenario-sensitive differences in whether systems overclaim completeness, conservatively underclaim, or report incompleteness in an enterprise-usable form. The benchmark's broader contribution is to make a governance-critical agent failure measurable without human judges or contamination-prone static corpora.


翻译:企业主体系统日益在限定范围的检索系统、委托工作流及受策略约束的证据环境中运行。在这些场景中,访问控制虽可被正确执行,但系统仍可能生成看似完整的答案,而实质性证据却位于调用者授权边界之外。本文提出部分证据基准测试(Partial Evidence Bench),一种用于度量此类故障模式的确定性基准。该基准包含三个场景族——尽职调查、合规审计与安全事件响应——共计72项任务,并配备基于ACL分区的语料库、完整答案的基准真相、授权视图答案的基准真相、完整性判断的基准真相以及结构化差距报告的基准真相。它从四个维度评估系统:答案正确性、完整性感知能力、差距报告质量及不安全完整性行为。已登记的基线测试表明,所有场景族中的静默过滤均存在灾难性不安全问题,而显式失败-报告行为可在不将任务简化为简单弃权的前提下消除不安全完整性。初步真实模型运行结果显示,系统在过度声明完整性、保守性低估完整性或以企业可用形式报告不完整性方面,存在模型依赖性与场景敏感性差异。该基准的广泛贡献在于,使治理关键性主体系统故障可通过无人工评判者且无污染风险的静态语料库进行可量化度量。

0
下载
关闭预览

相关内容

异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员