Current artificial intelligence systems exhibit strong performance on narrow tasks, while existing evaluation frameworks provide limited insight into generality across domains. We introduce the Artificial General Intelligence Testbed (AGITB), a complementary benchmarking framework grounded in twelve explicitly stated axioms and implemented as a suite of twelve automated, simple, and reusable tests. AGITB evaluates models on their ability to learn and to predict the next input in a temporal sequence whose semantic content is initially unknown to the model. The framework targets core computational properties, such as determinism, adaptability, and generalisation, that parallel principles observed in biological information processing. Designed to resist brute-force or memorisation-based strategies, AGITB requires autonomous learning across previously unseen environments, in a manner broadly inspired by cortical computation. Preliminary application of AGITB suggests that no contemporary system evaluated to date satisfies all test criteria, indicating that the benchmark provides a structured and interpretable means of assessing progress toward more general learning capabilities. A reference implementation of AGITB is freely available on GitHub.


翻译:当前人工智能系统在特定任务上表现出色,但现有评估框架难以衡量其跨领域泛化能力。本文提出通用人工智能测试平台(AGITB),该框架基于十二条明确定义的公理构建,通过十二项自动化、简洁且可复用的测试套件实现。AGITB通过模型在时序序列中学习和预测下一输入信号的能力进行评估,该序列的语义内容对模型初始未知。该框架聚焦确定性、适应性与泛化性等核心计算特性,这些特性与生物信息处理中观察到的原理相呼应。AGITB设计上抵制暴力破解或基于记忆的策略,要求模型在全新环境中进行自主学习,其设计理念广泛受皮层计算机制启发。初步实验表明,现有系统均未满足所有测试标准,这证明该基准能为评估通用学习能力的进展提供结构化且可解释的衡量工具。AGITB参考实现已在GitHub开源发布。

0
下载
关闭预览

相关内容

通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
2025全球人工智能展望报告:通向AGI之路,76页ppt
专知会员服务
33+阅读 · 2025年9月30日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【重磅】《人工智能标准化白皮书(2018)》发布(完整版)
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员