Distributed acoustic sensing (DAS) systems generate continuous, ultra-high-channel-count data streams at rates that exceed the capabilities of conventional batch-oriented analysis frameworks. As a result, essential tasks such as interactive exploration of long-duration recordings, scalable event annotation, and real-time algorithm-in-the-loop monitoring remain inadequately supported by workflows built around manually selected data segments and offline processing. This paper presents FiLark (Fiber Lark), a Python framework that applies a \emph{streaming-first} principle uniformly across data access, signal processing, visualization and monitoring for DAS. Instead of operating on manually selected data segments, FiLark presents any DAS sources-including continuous multi-file recordings-as a unified stream and builds all system components around that abstraction. An OpenGL-based ring-buffer renderer enables interactive browsing and visualization of arbitrarily long recordings with constant memory usage. An integrated annotation interface supports event labeling directly within continuous data streams, facilitating the creation of reproducible machine-learning-ready labeled datasets without offline preprocessing. The signal processing library includes temporal, spatial, spectral, and decomposition-based operators, with both CPU implementations and GPU-accelerated variants via PyTorch, alongside stateful chunked execution that preserves processing continuity and application semantics across segment boundaries. A standardized monitor interface further integrates streaming detectors and learning-based models into the visualization workflow. By sharing a common streaming abstraction across all layers, FiLark allows processing configurations and workflows developed interactively to transfer directly to scalable production pipelines without modification.


翻译:分布式声学传感系统以超越传统批处理分析框架能力的速度持续生成超高通道数数据流。因此,基于手动选择数据段和离线处理的工作流程,难以充分支持长时间录制的交互式勘探、可扩展事件标注以及实时算法在环监测等关键任务。本文提出FiLark(Fiber Lark),一个针对DAS的Python框架,它统一将“流优先”原则应用于数据访问、信号处理、可视化和监测。FiLark并非操作手动选择的数据段,而是将所有DAS数据源(包括连续的多文件录制)呈现为统一的数据流,并围绕这一抽象构建所有系统组件。基于OpenGL的环形缓冲渲染器支持以恒定内存占用交互式浏览和可视化任意长度的录制数据。集成的标注接口支持在连续数据流中直接进行事件标记,从而无需离线预处理即可创建可重复的、面向机器学习的标注数据集。其信号处理库包含时域、空域、频域和基于分解的算子,并提供CPU实现及通过PyTorch实现的GPU加速变体,同时具备有状态的分块执行能力,可在段边界保持处理连续性和应用语义。标准化的监测器接口进一步将流式检测器和基于学习的模型集成到可视化工作流程中。通过在所有层次共享统一的流式抽象,FiLark允许将交互式开发的配置和工作流程直接迁移到可扩展的生产流水线,而无需进行任何修改。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月22日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员