台湾歌仔戏电视连续剧的时序文本提取 (Timed text extraction from Taiwanese Kua-á-hì TV series) - 专知论文

会员服务 ·

0

OCR · 提取 · 潜在 · 识别 · 片段 ·

Timed text extraction from Taiwanese Kua-á-hì TV series

翻译：台湾歌仔戏电视连续剧的时序文本提取

Tzu-Hung Huang,Yun-En Tsai,Yun-Ning Hung,Chih-Wei Wu,I-Chieh Wei,Li Su

from arxiv, Accepted to ISMIR 2025 Late-Breaking Demo (LBD)

Taiwanese opera (Kua-á-hì), a major form of local theatrical tradition, underwent extensive television adaptation notably by pioneers like Iûnn Lē-hua. These videos, while potentially valuable for in-depth studies of Taiwanese opera, often have low quality and require substantial manual effort during data preparation. To streamline this process, we developed an interactive system for real-time OCR correction and a two-step approach integrating OCR-driven segmentation with Speech and Music Activity Detection (SMAD) to efficiently identify vocal segments from archival episodes with high precision. The resulting dataset, consisting of vocal segments and corresponding lyrics, can potentially supports various MIR tasks such as lyrics identification and tune retrieval. Code is available at https://github.com/z-huang/ocr-subtitle-editor .

翻译：台湾歌仔戏作为一项重要的地方戏剧传统，经历了广泛的电视改编，尤以杨丽花等先驱者为代表。这些视频虽对深入研究歌仔戏具有潜在价值，但通常质量较低，且在数据准备阶段需要大量人工操作。为简化此流程，我们开发了一个用于实时OCR校正的交互式系统，并提出一种两步法：该方法将OCR驱动的分割与语音和音乐活动检测（SMAD）相结合，从而高效且高精度地从档案剧集中识别出人声片段。最终生成的数据集包含人声片段及对应歌词，可潜在支持多种音乐信息检索任务，如歌词识别与曲调检索。代码发布于 https://github.com/z-huang/ocr-subtitle-editor 。

0

相关内容

OCR

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

专知会员服务

37+阅读 · 2024年10月8日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知会员服务

154+阅读 · 2021年10月25日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

论文笔记之Feature Selective Networks for Object Detection

论文笔记之Feature Selective Networks for Object Detection

统计学习与视觉计算组

21+阅读 · 2018年7月26日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

读论文Discriminative Deep Metric Learning for Face and KV

读论文Discriminative Deep Metric Learning for Face and KV

统计学习与视觉计算组

12+阅读 · 2018年4月6日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior

Arxiv

0+阅读 · 1月6日

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

Arxiv

0+阅读 · 1月6日

Tractable Algorithms for Changepoint Detection in Player Performance Metrics

Arxiv

0+阅读 · 1月4日

HeurekaBench: A Benchmarking Framework for AI Co-scientist

Arxiv

0+阅读 · 1月4日

VARTS: A Tool for the Visualization and Analysis of Representative Time Series Data

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

相关VIP内容

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

专知会员服务

37+阅读 · 2024年10月8日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知会员服务

154+阅读 · 2021年10月25日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体评判者（Agent-as-a-Judge）研究综述

《空战中心自动化持续训练》报告

区块链自主智能体：标准规范、执行模型与信任边界研究

面向无人机战场调整作战训练中心

相关资讯

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

论文笔记之Feature Selective Networks for Object Detection

论文笔记之Feature Selective Networks for Object Detection

统计学习与视觉计算组

21+阅读 · 2018年7月26日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

读论文Discriminative Deep Metric Learning for Face and KV

读论文Discriminative Deep Metric Learning for Face and KV

统计学习与视觉计算组

12+阅读 · 2018年4月6日

相关论文

In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior

Arxiv

0+阅读 · 1月6日

RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

Arxiv

0+阅读 · 1月6日

Tractable Algorithms for Changepoint Detection in Player Performance Metrics

Arxiv

0+阅读 · 1月4日

HeurekaBench: A Benchmarking Framework for AI Co-scientist

Arxiv

0+阅读 · 1月4日

VARTS: A Tool for the Visualization and Analysis of Representative Time Series Data

Arxiv

0+阅读 · 1月4日

相关基金

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员