AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence - 专知论文

会员服务 ·

0

基准 · 系统 · 泛化 · 序列 · 通用人工智能 ·

AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence

翻译：AGITB：评估通用人工智能的信号级基准

from arxiv, 23 pages, 2 figures

Current artificial intelligence systems exhibit strong performance on narrow tasks, while existing evaluation frameworks provide limited insight into generality across domains. We introduce the Artificial General Intelligence Testbed (AGITB), a complementary benchmarking framework grounded in twelve explicitly stated axioms and implemented as a suite of twelve automated, simple, and reusable tests. AGITB evaluates models on their ability to learn and to predict the next input in a temporal sequence whose semantic content is initially unknown to the model. The framework targets core computational properties, such as determinism, adaptability, and generalisation, that parallel principles observed in biological information processing. Designed to resist brute-force or memorisation-based strategies, AGITB requires autonomous learning across previously unseen environments, in a manner broadly inspired by cortical computation. Preliminary application of AGITB suggests that no contemporary system evaluated to date satisfies all test criteria, indicating that the benchmark provides a structured and interpretable means of assessing progress toward more general learning capabilities. A reference implementation of AGITB is freely available on GitHub.

翻译：当前人工智能系统在特定任务上表现出色，但现有评估框架难以衡量其跨领域泛化能力。本文提出通用人工智能测试平台（AGITB），该框架基于十二条明确定义的公理构建，通过十二项自动化、简洁且可复用的测试套件实现。AGITB通过模型在时序序列中学习和预测下一输入信号的能力进行评估，该序列的语义内容对模型初始未知。该框架聚焦确定性、适应性与泛化性等核心计算特性，这些特性与生物信息处理中观察到的原理相呼应。AGITB设计上抵制暴力破解或基于记忆的策略，要求模型在全新环境中进行自主学习，其设计理念广泛受皮层计算机制启发。初步实验表明，现有系统均未满足所有测试标准，这证明该基准能为评估通用学习能力的进展提供结构化且可解释的衡量工具。AGITB参考实现已在GitHub开源发布。

0

相关内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

2025全球人工智能展望报告：通向AGI之路，76页ppt

2025全球人工智能展望报告：通向AGI之路，76页ppt

专知会员服务

33+阅读 · 2025年9月30日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

专知会员服务

57+阅读 · 2023年6月21日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

89+阅读 · 2023年4月22日

什么是普适人工智能？AAAI2023最新《普适人工智能》教程，

什么是普适人工智能？AAAI2023最新《普适人工智能》教程，

专知会员服务

36+阅读 · 2023年3月14日

国家信标委《信息技术人工智能术语》正式发布，附下载

国家信标委《信息技术人工智能术语》正式发布，附下载

专知会员服务

95+阅读 · 2022年10月27日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

如何构建通用人工智能AGI？这份来自数学家视角见解可以参阅，64页PPT

如何构建通用人工智能AGI？这份来自数学家视角见解可以参阅，64页PPT

专知会员服务

44+阅读 · 2020年6月15日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知

18+阅读 · 2019年1月28日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

中国自动化学会

11+阅读 · 2018年1月19日

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

走向智能论坛

39+阅读 · 2018年1月19日

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

机器之心

15+阅读 · 2018年1月19日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

专知

21+阅读 · 2018年1月18日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Arxiv

0+阅读 · 2月19日

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Arxiv

0+阅读 · 2月19日

Can Complexity and Uncomputability Explain Intelligence? SuperARC: A Test for Artificial Super Intelligence Based on Recursive Compression

Arxiv

0+阅读 · 2月11日

Measuring What Matters: The AI Pluralism Index

Arxiv

0+阅读 · 2月11日

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Arxiv

0+阅读 · 2月9日

A2Eval: Agentic and Automated Evaluation for Embodied Brain

Arxiv

0+阅读 · 2月2日

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

Arxiv

0+阅读 · 1月30日

ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design

Arxiv

0+阅读 · 1月29日

RubberDuckBench: A Benchmark for AI Coding Assistants

Arxiv

0+阅读 · 1月23日

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

通用人工智能

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

2025全球人工智能展望报告：通向AGI之路，76页ppt

2025全球人工智能展望报告：通向AGI之路，76页ppt

专知会员服务

33+阅读 · 2025年9月30日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

专知会员服务

57+阅读 · 2023年6月21日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

89+阅读 · 2023年4月22日

什么是普适人工智能？AAAI2023最新《普适人工智能》教程，

什么是普适人工智能？AAAI2023最新《普适人工智能》教程，

专知会员服务

36+阅读 · 2023年3月14日

国家信标委《信息技术人工智能术语》正式发布，附下载

国家信标委《信息技术人工智能术语》正式发布，附下载

专知会员服务

95+阅读 · 2022年10月27日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

如何构建通用人工智能AGI？这份来自数学家视角见解可以参阅，64页PPT

如何构建通用人工智能AGI？这份来自数学家视角见解可以参阅，64页PPT

专知会员服务

44+阅读 · 2020年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知

18+阅读 · 2019年1月28日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

中国自动化学会

11+阅读 · 2018年1月19日

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

走向智能论坛

39+阅读 · 2018年1月19日

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

机器之心

15+阅读 · 2018年1月19日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）（附下载链接）

专知

21+阅读 · 2018年1月18日

相关论文

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Arxiv

0+阅读 · 2月19日

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Arxiv

0+阅读 · 2月19日

Can Complexity and Uncomputability Explain Intelligence? SuperARC: A Test for Artificial Super Intelligence Based on Recursive Compression

Arxiv

0+阅读 · 2月11日

Measuring What Matters: The AI Pluralism Index

Arxiv

0+阅读 · 2月11日

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Arxiv

0+阅读 · 2月9日

A2Eval: Agentic and Automated Evaluation for Embodied Brain

Arxiv

0+阅读 · 2月2日

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

Arxiv

0+阅读 · 1月30日

ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design

Arxiv

0+阅读 · 1月29日

RubberDuckBench: A Benchmark for AI Coding Assistants

Arxiv

0+阅读 · 1月23日

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Arxiv

0+阅读 · 1月17日

相关基金

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员