Rip currents are strong, localized and narrow currents of water that flow outwards into the sea, causing numerous beach-related injuries and fatalities worldwide. Accurate identification of rip currents remains challenging due to their amorphous nature and the lack of annotated data, which often requires expert knowledge. To address these issues, we present RipVIS, a large-scale video instance segmentation benchmark explicitly designed for rip current segmentation. RipVIS is an order of magnitude larger than previous datasets, featuring $184$ videos ($212,328$ frames), of which $150$ videos ($163,528$ frames) are with rip currents, collected from various sources, including drones, mobile phones, and fixed beach cameras. Our dataset encompasses diverse visual contexts, such as wave-breaking patterns, sediment flows, and water color variations, across multiple global locations, including USA, Mexico, Costa Rica, Portugal, Italy, Greece, Romania, Sri Lanka, Australia and New Zealand. Most videos are annotated at $5$ FPS to ensure accuracy in dynamic scenarios, supplemented by an additional $34$ videos ($48,800$ frames) without rip currents. We conduct comprehensive experiments with Mask R-CNN, Cascade Mask R-CNN, SparseInst and YOLO11, fine-tuning these models for the task of rip current segmentation. Results are reported in terms of multiple metrics, with a particular focus on the $F_2$ score to prioritize recall and reduce false negatives. To enhance segmentation performance, we introduce a novel post-processing step based on Temporal Confidence Aggregation (TCA). RipVIS aims to set a new standard for rip current segmentation, contributing towards safer beach environments. We offer a benchmark website to share data, models, and results with the research community, encouraging ongoing collaboration and future contributions, at https://ripvis.ai.


翻译:离岸流是向外海流动的强而局部的狭窄水流,在全球范围内导致大量海滩相关伤亡事故。由于其形态多变且缺乏标注数据(通常需要专业知识),离岸流的精确识别仍具挑战性。为解决这些问题,我们提出RipVIS——一个专门为离岸流分割设计的大规模视频实例分割基准数据集。RipVIS的规模比现有数据集大一个数量级,包含从无人机、手机和固定海滩摄像机等多种来源收集的184段视频(212,328帧),其中150段视频(163,528帧)包含离岸流。我们的数据集涵盖美国、墨西哥、哥斯达黎加、葡萄牙、意大利、希腊、罗马尼亚、斯里兰卡、澳大利亚和新西兰等多个全球地点的多样化视觉场景,包括碎浪模式、沉积物流和水色变化。为确保动态场景下的标注精度,大多数视频以5 FPS进行标注,并额外补充34段无离岸流视频(48,800帧)。我们使用Mask R-CNN、Cascade Mask R-CNN、SparseInst和YOLO11进行了全面实验,并针对离岸流分割任务对这些模型进行微调。实验结果通过多项指标进行评估,其中特别关注$F_2$分数以优先提升召回率并减少漏检。为提升分割性能,我们提出了一种基于时序置信度聚合(TCA)的新型后处理步骤。RipVIS旨在为离岸流分割建立新标准,为营造更安全的海滩环境作出贡献。我们通过基准网站(https://ripvis.ai)向研究社区共享数据、模型和结果,以促进持续合作与未来贡献。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员