LabelVizier: Interactive Validation and Relabeling for Technical Text Annotations - 专知论文

会员服务 ·

0

注释（编程） · 标注 · 文本数据 · 交互 · 知识 ·

2023 年 3 月 31 日

LabelVizier: Interactive Validation and Relabeling for Technical Text Annotations

翻译：LabelVizier：技术文本标注的交互式验证与重新标注

Xiaoyu Zhang,Xiwei Xuan,Alden Dima,Thurston Sexton,Kwan-Liu Ma

from arxiv, 10 pages, 5 figures

With the rapid accumulation of text data produced by data-driven techniques, the task of extracting "data annotations"--concise, high-quality data summaries from unstructured raw text--has become increasingly important. The recent advances in weak supervision and crowd-sourcing techniques provide promising solutions to efficiently create annotations (labels) for large-scale technical text data. However, such annotations may fail in practice because of the change in annotation requirements, application scenarios, and modeling goals, where label validation and relabeling by domain experts are required. To approach this issue, we present LabelVizier, a human-in-the-loop workflow that incorporates domain knowledge and user-specific requirements to reveal actionable insights into annotation flaws, then produce better-quality labels for large-scale multi-label datasets. We implement our workflow as an interactive notebook to facilitate flexible error profiling, in-depth annotation validation for three error types, and efficient annotation relabeling on different data scales. We evaluated the efficiency and generalizability of our workflow with two use cases and four expert reviews. The results indicate that LabelVizier is applicable in various application scenarios and assist domain experts with different knowledge backgrounds to efficiently improve technical text annotation quality.

翻译：随着数据驱动技术产生的文本数据迅速积累，从非结构化原始文本中提取“数据标注”（即简洁、高质量的数据摘要）的任务变得愈发重要。近期弱监督和众包技术的进展为大规模技术文本数据的高效标注提供了有前景的解决方案。然而，由于标注需求、应用场景和建模目标的变化，此类标注在实践中可能出现失效，需要领域专家进行标注验证和重新标注。针对这一问题，我们提出了LabelVizier——一种融入领域知识和用户特定需求的人机协同工作流，能够揭示标注缺陷中的可操作洞察，进而为大规模多标签数据集生成更高质量的标注。我们将该工作流实现为交互式笔记本，以支持灵活的误差分析、针对三种错误类型的深度标注验证，以及不同数据规模下的高效标注重标。通过两个用例和四次专家评估，我们验证了该工作流的效率与泛化能力。结果表明，LabelVizier适用于多种应用场景，并能帮助具有不同知识背景的领域专家高效提升技术文本标注质量。

0

相关内容

注释（编程）

注释（编程）

注释（编程）

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

专知会员服务

29+阅读 · 2022年5月22日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

专知会员服务

103+阅读 · 2020年4月25日

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

专知会员服务

24+阅读 · 2020年3月31日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【Google可解释人工智能白皮书】27页pdf，AI Explainability Whitepaper ，Introduction to AI Explanations for AI Platform

【Google可解释人工智能白皮书】27页pdf，AI Explainability Whitepaper ，Introduction to AI Explanations for AI Platform

专知会员服务

128+阅读 · 2019年12月13日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

讲习班 | ISWC 2022 知识感知的零样本学习

讲习班 | ISWC 2022 知识感知的零样本学习

开放知识图谱

5+阅读 · 2022年10月22日

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知

0+阅读 · 2022年10月20日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

微纳米金属有机骨架材料的制备、形貌控制、自组装及应用

国家自然科学基金

0+阅读 · 2014年12月31日

番茄果实成熟相关Dicer-like 2c的调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物医用材料表面的拓扑结构调控间充质干细胞免疫属性的效应及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向中文文本的事件时空语义解析方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

生物涂层材料添加制造中的界面力学和优化设计

国家自然科学基金

0+阅读 · 2012年12月31日

文本多粒度关系抽取半监督自适应学习的研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于社会标注复杂网络的电子商务推荐方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

SHOX基因下游增强子的识别及调控活性分析

国家自然科学基金

0+阅读 · 2011年12月31日

用外显子组捕获测序技术鉴定Olmsted型掌跖角化症的致病基因

国家自然科学基金

0+阅读 · 2011年12月31日

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

Arxiv

1+阅读 · 2023年5月22日

Decomposed Prompting for Machine Translation Between Related Languages using Large Language Models

Arxiv

1+阅读 · 2023年5月22日

Text-based Person Search without Parallel Image-Text Data

Arxiv

0+阅读 · 2023年5月22日

Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration

Arxiv

0+阅读 · 2023年5月22日

Evaluating task understanding through multilingual consistency: A ChatGPT case study

Arxiv

0+阅读 · 2023年5月19日

Federated Foundation Models: Privacy-Preserving and Collaborative Learning for Large Models

Arxiv

0+阅读 · 2023年5月19日

Leveraging ChatGPT for Power System Programming Tasks

Arxiv

1+阅读 · 2023年5月18日

Applications of Voice User Interfaces in Clinical Settings

Arxiv

0+阅读 · 2023年5月18日

Deep Neural Network Based Relation Extraction: An Overview

Arxiv

14+阅读 · 2021年1月6日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

21+阅读 · 2019年5月13日

VIP会员

文章信息

相关主题

注释（编程）

最新内容

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

3+阅读 · 今天5:21

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

8+阅读 · 今天5:16

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

4+阅读 · 今天4:37

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

4+阅读 · 今天4:30

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

4+阅读 · 今天4:12

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

5+阅读 · 今天2:54

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

9+阅读 · 7月24日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

8+阅读 · 7月24日

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

5+阅读 · 7月24日

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

3+阅读 · 7月24日

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

4+阅读 · 7月24日

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

5+阅读 · 7月24日

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

7+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

6+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

9+阅读 · 7月23日

相关VIP内容

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

专知会员服务

29+阅读 · 2022年5月22日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

专知会员服务

103+阅读 · 2020年4月25日

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

专知会员服务

24+阅读 · 2020年3月31日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【Google可解释人工智能白皮书】27页pdf，AI Explainability Whitepaper ，Introduction to AI Explanations for AI Platform

【Google可解释人工智能白皮书】27页pdf，AI Explainability Whitepaper ，Introduction to AI Explanations for AI Platform

专知会员服务

128+阅读 · 2019年12月13日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《决策模型比较研究》

《美军水下战与海床战概述及本地实施》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

相关资讯

讲习班 | ISWC 2022 知识感知的零样本学习

讲习班 | ISWC 2022 知识感知的零样本学习

开放知识图谱

5+阅读 · 2022年10月22日

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知

0+阅读 · 2022年10月20日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

相关论文

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

Arxiv

1+阅读 · 2023年5月22日

Decomposed Prompting for Machine Translation Between Related Languages using Large Language Models

Arxiv

1+阅读 · 2023年5月22日

Text-based Person Search without Parallel Image-Text Data

Arxiv

0+阅读 · 2023年5月22日

Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration

Arxiv

0+阅读 · 2023年5月22日

Evaluating task understanding through multilingual consistency: A ChatGPT case study

Arxiv

0+阅读 · 2023年5月19日

Federated Foundation Models: Privacy-Preserving and Collaborative Learning for Large Models

Arxiv

0+阅读 · 2023年5月19日

Leveraging ChatGPT for Power System Programming Tasks

Arxiv

1+阅读 · 2023年5月18日

Applications of Voice User Interfaces in Clinical Settings

Arxiv

0+阅读 · 2023年5月18日

Deep Neural Network Based Relation Extraction: An Overview

Arxiv

14+阅读 · 2021年1月6日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

21+阅读 · 2019年5月13日

相关基金

微纳米金属有机骨架材料的制备、形貌控制、自组装及应用

国家自然科学基金

0+阅读 · 2014年12月31日

番茄果实成熟相关Dicer-like 2c的调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物医用材料表面的拓扑结构调控间充质干细胞免疫属性的效应及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向中文文本的事件时空语义解析方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

生物涂层材料添加制造中的界面力学和优化设计

国家自然科学基金

0+阅读 · 2012年12月31日

文本多粒度关系抽取半监督自适应学习的研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于社会标注复杂网络的电子商务推荐方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

SHOX基因下游增强子的识别及调控活性分析

国家自然科学基金

0+阅读 · 2011年12月31日

用外显子组捕获测序技术鉴定Olmsted型掌跖角化症的致病基因

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员