High-quality curated datasets are essential for training and evaluating AI approaches, but are often lacking in embodied interactive domains where language and physical action are intertwined. In particular, few datasets capture how people acquire motor skills in embodied tasks through verbal instruction over time. To address this gap, we introduce SimCoachCorpus: a unique dataset of race car simulator driving that enables the investigation of rich phenomena during guided and unguided motor skill acquisition. In this dataset, 29 humans were asked to drive in a driving simulator around a race track for approximately ninety minutes. Fifteen participants received one-on-one instruction from a professional performance driving coach, and 14 participants drove without coaching instruction. SimCoachCorpus includes features such as vehicle state and inputs, map (track boundaries and race-line), and cone landmarks. Additionally, these are synchronized with the coach's concurrent verbal feedback and additional terminal feedback at the end of each lap. We also provide high-quality annotations of high-level coaching categories for each concurrent feedback utterance, ratings on students' compliance with coaching advice, and self-reported cognitive load and emotional state of participants (gathered from surveys during the study). The final dataset includes over 20,000 concurrent feedback utterances, over 400 terminal feedback utterances, and over 40 hours of interactive driving data. Our naturalistic interactive dataset can be used to investigate motor learning dynamics, explore linguistic phenomena, and train computational models of teaching and learning. We demonstrate applications of this dataset for in-context learning, imitation learning, and topic modeling. Data is hosted at https://doi.org/10.7910/DVN/W7VTKZ and code is available at https://github.com/ToyotaResearchInstitute/sim_coach_corpus


翻译:高质量筛选数据集对于训练和评估人工智能方法至关重要,但在语言与物理动作相互交织的具身交互领域,此类数据集往往十分匮乏。尤其鲜有数据集能够捕捉人类在具身任务中通过语言指导随时间推移习得运动技能的过程。为填补这一空白,我们推出SimCoachCorpus:一个独特的赛车模拟器驾驶数据集,用于研究引导式与非引导式运动技能习得过程中的丰富现象。该数据集包含29名参与者在模拟驾驶器中围绕赛道行驶约九十分钟的数据。其中15名参与者接受专业赛车教练的一对一指导,14名参与者无教练指导进行驾驶。SimCoachCorpus包含车辆状态与输入、地图(赛道边界与赛车线)以及锥形路标等特征。此外,这些数据与教练的实时口头反馈及每圈结束后的附加终端反馈保持同步。我们还为每条实时反馈话语提供高层教练类别的精细标注、学生对教练建议的遵从度评分,以及参与者自我报告的认知负荷与情绪状态(通过研究期间的问卷调查收集)。最终数据集包含超过20,000条实时反馈话语、400余条终端反馈话语,以及超过40小时的交互驾驶数据。该自然交互数据集可用于研究运动学习动态、探索语言现象,并训练教与学的计算模型。我们展示了该数据集在上下文学习、模仿学习及主题建模中的应用。数据托管于https://doi.org/10.7910/DVN/W7VTKZ,代码见https://github.com/ToyotaResearchInstitute/sim_coach_corpus

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
面向具身智能的多模态数据存储与检索:综述
专知会员服务
31+阅读 · 2025年8月20日
数据驱动的具身学习探索
专知会员服务
18+阅读 · 2025年2月26日
专知会员服务
62+阅读 · 2021年8月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
自然语言处理数据集免费资源开放(附学习资料)
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
17+阅读 · 2023年12月4日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
自然语言处理数据集免费资源开放(附学习资料)
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员