Intelligent Automation for Embodied Benchmark Construction: Pipelines, Embodiments, Simulators, and Trends - 专知论文

会员服务 ·

0

基准 · 构建 · 自动化 · 标注 · 综述 ·

Intelligent Automation for Embodied Benchmark Construction: Pipelines, Embodiments, Simulators, and Trends

翻译：面向具身化基准构建的智能自动化：流程、具身形态、仿真器与趋势

Jinshan Lai,Jianwei Hu,Baoyang Jiang,Fengchun Zhang,Leyuan Wang,Haotian Li,Yida Wang,Tingxuan Huang,Xi Ren,Qiang Ma

Embodied intelligence now spans navigation, household assistance, manipulation, autonomous driving, aerial agents, and multimodal large-model control. This expansion has made benchmark construction a central bottleneck for reliable evaluation. Unlike static datasets, embodied benchmarks combine task specifications, environments, robot data, demonstrations, annotations, metrics, evaluation scripts, and release policies into a single evaluation system. This survey reviews the literature through a five-stage construction pipeline: requirement and task construction, data acquisition, data cleaning and annotation, benchmark suite generation and metric definition, and evaluation execution with diagnostic feedback. For each stage, the survey analyzes the transition from manual curation to traditional automation, foundation-model assistance, and agentic closed-loop workflows. It also compares qualitative construction costs across human labor, data and asset acquisition, compute and simulation, validation and debugging, governance and maintenance, and rework risk. The main conclusion is that automation does not simply reduce benchmark cost. Instead, it often shifts cost toward validation, auditability, version control, and long-term governance. Progress in embodied evaluation will therefore depend not only on larger benchmark suites, but also on construction pipelines that are diagnosable, auditable, and responsibly refreshable.

翻译：具身智能现已涵盖导航、家务辅助、操作、自动驾驶、空中智能体以及多模态大模型控制等多个领域。这一扩展使得基准构建成为实现可靠评估的核心瓶颈。与静态数据集不同，具身基准将任务规范、环境、机器人数据、示教、标注、评估指标、评估脚本以及发布策略整合为一个统一的评估系统。本综述通过一个五阶段构建流程来回顾相关文献：需求与任务构建、数据获取、数据清洗与标注、基准套件生成及指标定义，以及带诊断反馈的评估执行。针对每个阶段，本综述分析了从人工管理到传统自动化、基础模型辅助以及智能体闭环工作流程的转变过程。同时，它还在人力、数据和资产获取、计算与仿真、验证与调试、治理与维护以及返工风险方面比较了定性的构建成本。主要结论是：自动化并非简单降低基准成本，相反，它往往将成本转移到验证、可审计性、版本控制和长期治理上。因此，具身评估的进步不仅依赖于更大的基准套件，还有赖于可诊断、可审计且可持续更新迭代的构建流程。

0

相关内容

中国具身智能产业发展报告（2026）｜附89页PDF文件下载

中国具身智能产业发展报告（2026）｜附89页PDF文件下载

专知会员服务

73+阅读 · 7月11日

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

33+阅读 · 5月6日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

18+阅读 · 4月30日

面向柔性制造的具身智能综述

面向柔性制造的具身智能综述

专知会员服务

22+阅读 · 2月11日

具身智能十大观察洞悉智能发展之势，探索智能向善之路

具身智能十大观察洞悉智能发展之势，探索智能向善之路

专知会员服务

24+阅读 · 2025年11月25日

基于多模态大模型的具身智能体研究进展与展望

基于多模态大模型的具身智能体研究进展与展望

专知会员服务

27+阅读 · 2025年7月2日

基于大模型的具身智能系统综述

基于大模型的具身智能系统综述

专知会员服务

87+阅读 · 2024年11月1日

重磅！《具身智能发展报告（2024年）》发布，54页pdf

重磅！《具身智能发展报告（2024年）》发布，54页pdf

专知会员服务

92+阅读 · 2024年8月27日

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

专知会员服务

64+阅读 · 2024年8月13日

多模态大模型时代的全球首篇《具身智能》综述

多模态大模型时代的全球首篇《具身智能》综述

专知会员服务

77+阅读 · 2024年7月26日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

VALSE Webinar 21-27期总第254期特邀报告：具身智能 (Embodied AI)

VALSE Webinar 21-27期总第254期特邀报告：具身智能 (Embodied AI)

VALSE

10+阅读 · 2021年9月17日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

走向智能论坛

39+阅读 · 2018年1月19日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

耦合多特征部件的数控装备可靠性建模与评估技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

Neuro-Symbolic Agents for Regulated Process Automation: Challenges and Research Agenda

Arxiv

0+阅读 · 6月11日

A Tutorial on World Models and Physical AI

Arxiv

0+阅读 · 6月11日

Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution

Arxiv

0+阅读 · 6月10日

Agent Skill Evaluation and Evolution: Frameworks and Benchmarks

Arxiv

0+阅读 · 6月9日

Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models

Arxiv

0+阅读 · 6月9日

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

Arxiv

0+阅读 · 6月9日

SIMPLE: Simulation-Based Policy Learning and Evaluation for Humanoid Loco-manipulation

Arxiv

0+阅读 · 6月6日

Towards Shared Embodied Intelligence in Humanoid Robots through Optimization Development and Testing of the Human Aware ergoCub Robot

Arxiv

0+阅读 · 5月26日

Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation

Arxiv

0+阅读 · 5月7日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

中国具身智能产业发展报告（2026）｜附89页PDF文件下载

中国具身智能产业发展报告（2026）｜附89页PDF文件下载

专知会员服务

73+阅读 · 7月11日

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

33+阅读 · 5月6日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

18+阅读 · 4月30日

面向柔性制造的具身智能综述

面向柔性制造的具身智能综述

专知会员服务

22+阅读 · 2月11日

具身智能十大观察洞悉智能发展之势，探索智能向善之路

具身智能十大观察洞悉智能发展之势，探索智能向善之路

专知会员服务

24+阅读 · 2025年11月25日

基于多模态大模型的具身智能体研究进展与展望

基于多模态大模型的具身智能体研究进展与展望

专知会员服务

27+阅读 · 2025年7月2日

基于大模型的具身智能系统综述

基于大模型的具身智能系统综述

专知会员服务

87+阅读 · 2024年11月1日

重磅！《具身智能发展报告（2024年）》发布，54页pdf

重磅！《具身智能发展报告（2024年）》发布，54页pdf

专知会员服务

92+阅读 · 2024年8月27日

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

专知会员服务

64+阅读 · 2024年8月13日

多模态大模型时代的全球首篇《具身智能》综述

多模态大模型时代的全球首篇《具身智能》综述

专知会员服务

77+阅读 · 2024年7月26日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

VALSE Webinar 21-27期总第254期特邀报告：具身智能 (Embodied AI)

VALSE Webinar 21-27期总第254期特邀报告：具身智能 (Embodied AI)

VALSE

10+阅读 · 2021年9月17日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

电子标准院：人工智能标准化白皮书（2018版）（附完整下载）

走向智能论坛

39+阅读 · 2018年1月19日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Neuro-Symbolic Agents for Regulated Process Automation: Challenges and Research Agenda

Arxiv

0+阅读 · 6月11日

A Tutorial on World Models and Physical AI

Arxiv

0+阅读 · 6月11日

Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution

Arxiv

0+阅读 · 6月10日

Agent Skill Evaluation and Evolution: Frameworks and Benchmarks

Arxiv

0+阅读 · 6月9日

Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models

Arxiv

0+阅读 · 6月9日

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

Arxiv

0+阅读 · 6月9日

SIMPLE: Simulation-Based Policy Learning and Evaluation for Humanoid Loco-manipulation

Arxiv

0+阅读 · 6月6日

Towards Shared Embodied Intelligence in Humanoid Robots through Optimization Development and Testing of the Human Aware ergoCub Robot

Arxiv

0+阅读 · 5月26日

Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation

Arxiv

0+阅读 · 5月7日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 5月6日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

耦合多特征部件的数控装备可靠性建模与评估技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员