We introduce ABD, a benchmark for default-exception abduction over finite first-order worlds. Given a background theory with an abnormality predicate and a set of relational structures, a model must output a first-order formula that defines exceptions, restoring satisfiability while keeping exceptions sparse. We formalize three observation regimes (closed-world, existential completion, universal completion) with exact SMT verification. Evaluating ten frontier LLMs on 600 instances, the best models achieve high validity but parsimony gaps remain, and holdout evaluation reveals distinct generalization failure modes across regimes.


翻译:我们提出了ABD,一个面向有限一阶世界中默认例外溯因的基准测试集。给定一个包含异常谓词和一组关系结构的背景理论,模型需输出一个定义例外的一阶公式,在保持例外稀疏性的同时恢复可满足性。我们形式化了三种观测模式(封闭世界、存在完备化、全称完备化),并采用精确的SMT验证。对十个前沿LLM在600个实例上的评估显示,最佳模型虽能达到高有效性,但简约性差距依然存在,且留出评估揭示了不同观测模式下截然不同的泛化失败模式。

0
下载
关闭预览

相关内容

【KDD2025】一种新颖的可解释性无监督异常检测模型
专知会员服务
7+阅读 · 2025年11月6日
分布外OOD检测的最新进展:问题与方法
专知会员服务
22+阅读 · 2024年9月23日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
AB实验在滴滴数据驱动中的应用
DataFunTalk
15+阅读 · 2020年5月31日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 47分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
4+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
4+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关VIP内容
【KDD2025】一种新颖的可解释性无监督异常检测模型
专知会员服务
7+阅读 · 2025年11月6日
分布外OOD检测的最新进展:问题与方法
专知会员服务
22+阅读 · 2024年9月23日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员