FormalJudge：一种用于智能体监督的神经符号范式 (FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight) - 专知论文

会员服务 ·

0

监督 · 形式化 · 神经符号 · 概率 · 智能体 ·

FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

翻译：FormalJudge：一种用于智能体监督的神经符号范式

Jiayi Zhou,Yang Sheng,Hantao Lou,Yaodong Yang,Jie Fu

from arxiv, 27 pages

As LLM-based agents increasingly operate in high-stakes domains with real-world consequences, ensuring their behavioral safety becomes paramount. The dominant oversight paradigm, LLM-as-a-Judge, faces a fundamental dilemma: how can probabilistic systems reliably supervise other probabilistic systems without inheriting their failure modes? We argue that formal verification offers a principled escape from this dilemma, yet its adoption has been hindered by a critical bottleneck: the translation from natural language requirements to formal specifications. This paper bridges this gap by proposing , a neuro-symbolic framework that employs a bidirectional Formal-of-Thought architecture: LLMs serve as specification compilers that top-down decompose high-level human intent into atomic, verifiable constraints, then bottom-up prove compliance using Dafny specifications and Z3 Satisfiability modulo theories solving, which produces mathematical guarantees rather than probabilistic scores. We validate across three benchmarks spanning behavioral safety, multi-domain constraint adherence, and agentic upward deception detection. Experiments on 7 agent models demonstrate that achieves an average improvement of 16.6% over LLM-as-a-Judge baselines, enables weak-to-strong generalization where a 7B judge achieves over 90% accuracy detecting deception from 72B agents, and provides near-linear safety improvement through iterative refinement.

翻译：随着基于大语言模型的智能体日益在具有现实世界影响的高风险领域运行，确保其行为安全性变得至关重要。当前主流的监督范式"LLM-as-a-Judge"面临一个根本性困境：概率系统如何能可靠地监督其他概率系统，而不继承其失效模式？我们认为形式化验证为这一困境提供了原则性解决方案，但其应用一直受制于一个关键瓶颈：从自然语言需求到形式化规约的转换。本文通过提出FormalJudge来弥合这一鸿沟，该神经符号框架采用双向形式化思维架构：大语言模型作为规约编译器，自上而下地将高层人类意图分解为原子化、可验证的约束，随后自下而上地利用Dafny规约和Z3可满足性模理论求解器证明合规性，从而产生数学保证而非概率评分。我们在涵盖行为安全、多领域约束遵循和智能体上行欺骗检测的三个基准测试中验证FormalJudge。对7种智能体模型的实验表明，相较于LLM-as-a-Judge基线，FormalJudge平均提升16.6%的性能，实现了弱到强泛化（7B参数的裁判模型检测72B智能体欺骗行为的准确率超过90%），并通过迭代优化提供接近线性的安全性提升。

0

相关内容

基于大语言模型智能体的社会认知模拟

基于大语言模型智能体的社会认知模拟

专知会员服务

13+阅读 · 2月22日

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

16+阅读 · 1月14日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

18+阅读 · 2025年11月19日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

大语言模型智能体

大语言模型智能体

专知会员服务

97+阅读 · 2024年12月25日

【AAAI2024】大型语言模型是神经符号推理器

【AAAI2024】大型语言模型是神经符号推理器

专知会员服务

37+阅读 · 2024年1月18日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

牵制控制框架下符号网络的群体行为研究

国家自然科学基金

2+阅读 · 2017年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组态地理实体符号的传感器实时监控关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

控制系统形式化设计中逻辑特征应用的研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

CaveAgent: Transforming LLMs into Stateful Runtime Operators

Arxiv

0+阅读 · 2月19日

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Arxiv

0+阅读 · 2月12日

Imandra CodeLogician: Neuro-Symbolic Reasoning for Precise Analysis of Software Logic

Arxiv

0+阅读 · 2月6日

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Arxiv

0+阅读 · 2月6日

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Arxiv

0+阅读 · 2月5日

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Arxiv

0+阅读 · 1月30日

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Arxiv

0+阅读 · 1月29日

ALRM: Agentic LLM for Robotic Manipulation

Arxiv

0+阅读 · 1月27日

Neuro-Symbolic Verification on Instruction Following of LLMs

Arxiv

0+阅读 · 1月25日

CodeDelegator: Mitigating Context Pollution via Role Separation in Code-as-Action Agents

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

基于大语言模型智能体的社会认知模拟

基于大语言模型智能体的社会认知模拟

专知会员服务

13+阅读 · 2月22日

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

16+阅读 · 1月14日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

18+阅读 · 2025年11月19日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

大语言模型智能体

大语言模型智能体

专知会员服务

97+阅读 · 2024年12月25日

【AAAI2024】大型语言模型是神经符号推理器

【AAAI2024】大型语言模型是神经符号推理器

专知会员服务

37+阅读 · 2024年1月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

CaveAgent: Transforming LLMs into Stateful Runtime Operators

Arxiv

0+阅读 · 2月19日

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Arxiv

0+阅读 · 2月12日

Imandra CodeLogician: Neuro-Symbolic Reasoning for Precise Analysis of Software Logic

Arxiv

0+阅读 · 2月6日

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Arxiv

0+阅读 · 2月6日

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Arxiv

0+阅读 · 2月5日

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Arxiv

0+阅读 · 1月30日

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Arxiv

0+阅读 · 1月29日

ALRM: Agentic LLM for Robotic Manipulation

Arxiv

0+阅读 · 1月27日

Neuro-Symbolic Verification on Instruction Following of LLMs

Arxiv

0+阅读 · 1月25日

CodeDelegator: Mitigating Context Pollution via Role Separation in Code-as-Action Agents

Arxiv

0+阅读 · 1月21日

相关基金

牵制控制框架下符号网络的群体行为研究

国家自然科学基金

2+阅读 · 2017年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组态地理实体符号的传感器实时监控关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

控制系统形式化设计中逻辑特征应用的研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员