A Video-based End-to-end Pipeline for Non-nutritive Sucking Action Recognition and Segmentation in Young Infants - 专知论文

会员服务 ·

0

片段 · 分割 · 模型评估 · 识别 · 视频片段 ·

2023 年 3 月 29 日

A Video-based End-to-end Pipeline for Non-nutritive Sucking Action Recognition and Segmentation in Young Infants

翻译：基于视频的婴幼儿非营养性吸吮动作识别与分割端到端方法

Shaotong Zhu,Michael Wan,Elaheh Hatamimajoumerd,Kashish Jain,Samuel Zlota,Cholpady Vikram Kamath,Cassandra B. Rowan,Emma C. Grace,Matthew S. Goodwin,Marie J. Hayes,Rebecca A. Schwartz-Mette,Emily Zimmerman,Sarah Ostadabbas

We present an end-to-end computer vision pipeline to detect non-nutritive sucking (NNS) -- an infant sucking pattern with no nutrition delivered -- as a potential biomarker for developmental delays, using off-the-shelf baby monitor video footage. One barrier to clinical (or algorithmic) assessment of NNS stems from its sparsity, requiring experts to wade through hours of footage to find minutes of relevant activity. Our NNS activity segmentation algorithm solves this problem by identifying periods of NNS with high certainty -- up to 94.0\% average precision and 84.9\% average recall across 30 heterogeneous 60 s clips, drawn from our manually annotated NNS clinical in-crib dataset of 183 hours of overnight baby monitor footage from 19 infants. Our method is based on an underlying NNS action recognition algorithm, which uses spatiotemporal deep learning networks and infant-specific pose estimation, achieving 94.9\% accuracy in binary classification of 960 2.5 s balanced NNS vs. non-NNS clips. Tested on our second, independent, and public NNS in-the-wild dataset, NNS recognition classification reaches 92.3\% accuracy, and NNS segmentation achieves 90.8\% precision and 84.2\% recall.

翻译：我们提出了一种端到端计算机视觉流程，利用商用婴儿监控视频素材检测非营养性吸吮（NNS）——一种无营养摄入的婴儿吸吮模式——作为发育迟缓的潜在生物标志物。NNS临床（或算法）评估的一个障碍源于其稀疏性，需要专家花费数小时浏览视频片段以寻找几分钟的相关活动。我们的NNS活动分割算法通过高置信度识别NNS时段解决了这一问题——在30个异构60秒视频片段中，平均精确率高达94.0%，平均召回率达84.9%。这些片段来自我们手动标注的NNS临床婴儿床数据集，包含19名婴儿共183小时夜间监控视频。该方法基于底层NNS动作识别算法，采用时空深度学习网络和婴儿专用姿态估计，在960个2.5秒的平衡NNS与非NNS片段二分类中达到94.9%的准确率。经第二个独立公开的NNS野外数据集测试，NNS识别分类准确率达92.3%，NNS分割的精确率和召回率分别为90.8%和84.2%。

0

相关内容

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

专知会员服务

45+阅读 · 2022年12月5日

DeepD2V:用于从组合DNA序列中预测转录因子结合位点的深度学习框架

DeepD2V:用于从组合DNA序列中预测转录因子结合位点的深度学习框架

专知会员服务

4+阅读 · 2022年12月5日

Nat. Commun. | devCellPy:对复杂的多层单细胞转录组数据进行自动注释的机器学习管道

Nat. Commun. | devCellPy:对复杂的多层单细胞转录组数据进行自动注释的机器学习管道

专知会员服务

9+阅读 · 2022年9月27日

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

专知会员服务

27+阅读 · 2022年5月19日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

19+阅读 · 2021年12月12日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

VideoMAE：简单高效的视频自监督预训练新范式｜NeurIPS 2022

VideoMAE：简单高效的视频自监督预训练新范式｜NeurIPS 2022

新智元

0+阅读 · 2022年11月28日

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

极市平台

1+阅读 · 2022年11月1日

排序、搜索、动态规划，DeepMind用一个神经算法学习器给解决了

排序、搜索、动态规划，DeepMind用一个神经算法学习器给解决了

机器之心

0+阅读 · 2022年10月5日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

专知

17+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

基于数据引力分类方法的互联网非平衡流量早期识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

低温寡照对设施番茄的致灾机理及灾损评估模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

极大似然minwise哈希估计子研究

国家自然科学基金

0+阅读 · 2013年12月31日

日本囊对虾Leurelectin识别弧菌鞭毛蛋白的机制和功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

神经内分泌肿瘤特异性多功能纳米分子探针NIRF-CCPM-Octreotide的研究

国家自然科学基金

0+阅读 · 2013年12月31日

寒区埋地管道的分布式结构健康监测与实时安全预警方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉先验学习和混合因子分析的极化SAR图像识别与分类

国家自然科学基金

1+阅读 · 2012年12月31日

黄曲霉素荧光成像的特征光谱选择与图像检测方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于通用多核处理器平台的业务流并行测量方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于患者动态信息的序列胸片自适应分割方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

Lifting Network Protocol Implementation to Precise Format Specification with Security Applications

Arxiv

0+阅读 · 2023年5月19日

LoViT: Long Video Transformer for Surgical Phase Recognition

Arxiv

0+阅读 · 2023年5月18日

Prevalence and Major Risk Factors of Non-communicable Diseases: A Machine Learning based Cross-Sectional Study

Arxiv

0+阅读 · 2023年5月18日

Simple and Scalable Algorithms for Cluster-Aware Precision Medicine

Arxiv

0+阅读 · 2023年5月17日

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Arxiv

0+阅读 · 2023年5月17日

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification

Arxiv

0+阅读 · 2023年5月17日

Classification of US Supreme Court Cases using BERT-Based Techniques

Arxiv

0+阅读 · 2023年5月16日

Transformers Meet Visual Learning Understanding: A Comprehensive Review

Arxiv

28+阅读 · 2022年3月24日

Image/Video Deep Anomaly Detection: A Survey

Arxiv

16+阅读 · 2021年3月2日

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Arxiv

11+阅读 · 2018年1月11日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

《通过机器学习对飞行员进行实时态势感知评估：构建自动分类系统》2022最新论文

专知会员服务

45+阅读 · 2022年12月5日

DeepD2V:用于从组合DNA序列中预测转录因子结合位点的深度学习框架

DeepD2V:用于从组合DNA序列中预测转录因子结合位点的深度学习框架

专知会员服务

4+阅读 · 2022年12月5日

Nat. Commun. | devCellPy:对复杂的多层单细胞转录组数据进行自动注释的机器学习管道

Nat. Commun. | devCellPy:对复杂的多层单细胞转录组数据进行自动注释的机器学习管道

专知会员服务

9+阅读 · 2022年9月27日

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

专知会员服务

27+阅读 · 2022年5月19日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

【NeurIPS 2021 】为目标检测搜索参数化平均准确率损失函数

专知会员服务

19+阅读 · 2021年12月12日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

VideoMAE：简单高效的视频自监督预训练新范式｜NeurIPS 2022

VideoMAE：简单高效的视频自监督预训练新范式｜NeurIPS 2022

新智元

0+阅读 · 2022年11月28日

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

极市平台

1+阅读 · 2022年11月1日

排序、搜索、动态规划，DeepMind用一个神经算法学习器给解决了

排序、搜索、动态规划，DeepMind用一个神经算法学习器给解决了

机器之心

0+阅读 · 2022年10月5日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

机器学习论文大全，涵盖深度学习、计算机视觉、分类、聚类、机器人学等

专知

17+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

相关论文

Lifting Network Protocol Implementation to Precise Format Specification with Security Applications

Arxiv

0+阅读 · 2023年5月19日

LoViT: Long Video Transformer for Surgical Phase Recognition

Arxiv

0+阅读 · 2023年5月18日

Prevalence and Major Risk Factors of Non-communicable Diseases: A Machine Learning based Cross-Sectional Study

Arxiv

0+阅读 · 2023年5月18日

Simple and Scalable Algorithms for Cluster-Aware Precision Medicine

Arxiv

0+阅读 · 2023年5月17日

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Arxiv

0+阅读 · 2023年5月17日

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification

Arxiv

0+阅读 · 2023年5月17日

Classification of US Supreme Court Cases using BERT-Based Techniques

Arxiv

0+阅读 · 2023年5月16日

Transformers Meet Visual Learning Understanding: A Comprehensive Review

Arxiv

28+阅读 · 2022年3月24日

Image/Video Deep Anomaly Detection: A Survey

Arxiv

16+阅读 · 2021年3月2日

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Arxiv

11+阅读 · 2018年1月11日

相关基金

基于数据引力分类方法的互联网非平衡流量早期识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

低温寡照对设施番茄的致灾机理及灾损评估模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

极大似然minwise哈希估计子研究

国家自然科学基金

0+阅读 · 2013年12月31日

日本囊对虾Leurelectin识别弧菌鞭毛蛋白的机制和功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

神经内分泌肿瘤特异性多功能纳米分子探针NIRF-CCPM-Octreotide的研究

国家自然科学基金

0+阅读 · 2013年12月31日

寒区埋地管道的分布式结构健康监测与实时安全预警方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉先验学习和混合因子分析的极化SAR图像识别与分类

国家自然科学基金

1+阅读 · 2012年12月31日

黄曲霉素荧光成像的特征光谱选择与图像检测方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于通用多核处理器平台的业务流并行测量方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于患者动态信息的序列胸片自适应分割方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员