ABD: Default Exception Abduction in Finite First Order Worlds - 专知论文

会员服务 ·

0

完备化 · 基准 · 基准测试 · 测试集 · 包含 ·

ABD: Default Exception Abduction in Finite First Order Worlds

翻译：ABD：有限一阶世界中的默认例外溯因

Serafim Batzoglou

We introduce ABD, a benchmark for default-exception abduction over finite first-order worlds. Given a background theory with an abnormality predicate and a set of relational structures, a model must output a first-order formula that defines exceptions, restoring satisfiability while keeping exceptions sparse. We formalize three observation regimes (closed-world, existential completion, universal completion) with exact SMT verification. Evaluating ten frontier LLMs on 600 instances, the best models achieve high validity but parsimony gaps remain, and holdout evaluation reveals distinct generalization failure modes across regimes.

翻译：我们提出了ABD，一个面向有限一阶世界中默认例外溯因的基准测试集。给定一个包含异常谓词和一组关系结构的背景理论，模型需输出一个定义例外的一阶公式，在保持例外稀疏性的同时恢复可满足性。我们形式化了三种观测模式（封闭世界、存在完备化、全称完备化），并采用精确的SMT验证。对十个前沿LLM在600个实例上的评估显示，最佳模型虽能达到高有效性，但简约性差距依然存在，且留出评估揭示了不同观测模式下截然不同的泛化失败模式。

0

相关内容

完备化

【KDD2025】一种新颖的可解释性无监督异常检测模型

【KDD2025】一种新颖的可解释性无监督异常检测模型

专知会员服务

8+阅读 · 2025年11月6日

分布外OOD检测的最新进展：问题与方法

分布外OOD检测的最新进展：问题与方法

专知会员服务

22+阅读 · 2024年9月23日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

【ACL2021】基于外部因果陈述自监督表示学习的事件因果关系识别

专知会员服务

35+阅读 · 2021年8月15日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

有限元先验与后验误差估计中常数的精细估计及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

MBD环境下复杂产品信息网络的演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机微分方程解的稳定性和矩有界性

国家自然科学基金

0+阅读 · 2015年12月31日

滑模控制方法处理带有干扰的一维具有范德波尔型边界条件的波动方程的稳定性

国家自然科学基金

0+阅读 · 2015年12月31日

面向学术资源的TSD与TDC测度及分析研究

国家自然科学基金

1+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

Causal Inference with Missing Exposures and Missing Outcomes

Arxiv

0+阅读 · 6月16日

OmniTraffic: A Controllable Generation Pipeline and Benchmark for Spatio-Temporal Traffic Reasoning

Arxiv

0+阅读 · 6月14日

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Arxiv

0+阅读 · 6月12日

ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior

Arxiv

0+阅读 · 6月11日

Determination Provenance: From Ambiguity to Algebra

Arxiv

0+阅读 · 6月9日

Differences in Detection: Explainability Where it Matters

Arxiv

0+阅读 · 6月5日

From Out-of-Distribution Detection to Hallucination Detection: A Geometric View

Arxiv

0+阅读 · 6月4日

Doctrinal Semantics of Directed First-Order Logic

Arxiv

0+阅读 · 5月11日

Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models

Arxiv

0+阅读 · 5月7日

ABox Abduction for Inconsistent Knowledge Bases under Repair Semantics

Arxiv

0+阅读 · 5月2日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

0+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

0+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

8+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

4+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

2+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

5+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

10+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

相关VIP内容

【KDD2025】一种新颖的可解释性无监督异常检测模型

【KDD2025】一种新颖的可解释性无监督异常检测模型

专知会员服务

8+阅读 · 2025年11月6日

分布外OOD检测的最新进展：问题与方法

分布外OOD检测的最新进展：问题与方法

专知会员服务

22+阅读 · 2024年9月23日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

【ACL2021】基于外部因果陈述自监督表示学习的事件因果关系识别

专知会员服务

35+阅读 · 2021年8月15日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

AB实验在滴滴数据驱动中的应用

AB实验在滴滴数据驱动中的应用

DataFunTalk

15+阅读 · 2020年5月31日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

相关论文

Causal Inference with Missing Exposures and Missing Outcomes

Arxiv

0+阅读 · 6月16日

OmniTraffic: A Controllable Generation Pipeline and Benchmark for Spatio-Temporal Traffic Reasoning

Arxiv

0+阅读 · 6月14日

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Arxiv

0+阅读 · 6月12日

ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior

Arxiv

0+阅读 · 6月11日

Determination Provenance: From Ambiguity to Algebra

Arxiv

0+阅读 · 6月9日

Differences in Detection: Explainability Where it Matters

Arxiv

0+阅读 · 6月5日

From Out-of-Distribution Detection to Hallucination Detection: A Geometric View

Arxiv

0+阅读 · 6月4日

Doctrinal Semantics of Directed First-Order Logic

Arxiv

0+阅读 · 5月11日

Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models

Arxiv

0+阅读 · 5月7日

ABox Abduction for Inconsistent Knowledge Bases under Repair Semantics

Arxiv

0+阅读 · 5月2日

相关基金

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

有限元先验与后验误差估计中常数的精细估计及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

MBD环境下复杂产品信息网络的演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机微分方程解的稳定性和矩有界性

国家自然科学基金

0+阅读 · 2015年12月31日

滑模控制方法处理带有干扰的一维具有范德波尔型边界条件的波动方程的稳定性

国家自然科学基金

0+阅读 · 2015年12月31日

面向学术资源的TSD与TDC测度及分析研究

国家自然科学基金

1+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员