When an AI agent calls an API and hits a validation error, it needs more than what went wrong -- it needs what to do next. A self-reflective API returns, on validation failure, a machine-readable recovery\_feedback.suggestions[] payload sufficient for the agent to repair the request and retry without external reasoning. On a leak-audited pilot ($N{=}30$ per cell, 3 LLMs, 10 adversarial tasks), structured suggestions lift task-completion rate by $+36.7$--$40.0$pp over plain-English diagnoses on Anthropic models (Fisher's exact $p \le 0.0022$), at $1.8$--$2.2\times$ better per-success token efficiency. The lift is not significant on gpt-4o-mini ($p{=}0.435$); a second-domain replication on a billing API confirms the pattern. The comparison only holds after auditing two undocumented classes of answer leakage in LLM benchmarks. We shipaudit\_prompt\_leakage.py as reusable CI infrastructure. Code and data: https://github.com/arquicanedo/self-reflective-apis.


翻译:当AI智能体调用API并遇到验证错误时,其所需的不仅是错误原因——更需要后续操作指引。自省式API在验证失败时返回包含机器可读的`recovery_feedback.suggestions[]`负载,该负载足以让智能体修复请求并重新执行,无需外部推理。在经泄露审计的试点实验(每单元$N{=}30$,3个LLM,10个对抗性任务)中,结构化建议使Anthropic模型的任务完成率相比纯文本诊断提升$+36.7$--$40.0$个百分点(Fisher精确检验$p \le 0.0022$),每次成功token效率提升$1.8$--$2.2$倍。但在gpt-4o-mini上提升不显著($p{=}0.435$);在计费API上的第二领域复现验证了该模式。该比较仅在审计LLM基准测试中两类未记录的回答泄露后成立。我们发布`audit_prompt_leakage.py`作为可复用CI基础设施。代码与数据:https://github.com/arquicanedo/self-reflective-apis。

0
下载
关闭预览

相关内容

应用程序接口(简称 API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
【干货】深入理解自编码器(附代码实现)
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员