Guidelines for the Creation of an Annotated Corpus - 专知论文

会员服务 ·

0

语料 · 语料库 · 标注 · 指南 · 文本数据 ·

Guidelines for the Creation of an Annotated Corpus

翻译：语料库标注创建指南

Bahdja Boudoua,Nadia Guiffant,Mathieu Roche,Maguelonne Teisseire,Annelise Tran

from arxiv, 8 pages, 3 figures

This document, based on feedback from UMR TETIS members and the scientific literature, provides a generic methodology for creating annotation guidelines and annotated textual datasets (corpora). It covers methodological aspects, as well as storage, sharing, and valorization of the data. It includes definitions and examples to clearly illustrate each step of the process, thus providing a comprehensive framework to support the creation and use of corpora in various research contexts.

翻译：本文档基于UMR TETIS团队成员的反馈和科学文献，提供了一套用于创建标注指南和标注文本数据集（语料库）的通用方法论。该方法论涵盖方法论层面，以及数据的存储、共享和价值实现。文档通过定义和实例清晰阐释流程的每个环节，从而为不同研究场景下语料库的创建与使用提供完整的框架支持。

0

相关内容

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

专知会员服务

90+阅读 · 2023年9月20日

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

专知会员服务

38+阅读 · 2023年8月29日

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

专知会员服务

123+阅读 · 2022年5月29日

《人工智能面向机器学习的数据标注规程》国家标准意见稿

《人工智能面向机器学习的数据标注规程》国家标准意见稿

专知会员服务

117+阅读 · 2022年2月24日

【经典书】自然语言标注—用于机器学习，341页pdf

【经典书】自然语言标注—用于机器学习，341页pdf

专知会员服务

55+阅读 · 2021年2月12日

【干货书】面向机器学习的自然语言标注，341页pdf

【干货书】面向机器学习的自然语言标注，341页pdf

专知会员服务

68+阅读 · 2021年2月7日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

数据标注研究综述，软件学报，19页pdf

数据标注研究综述，软件学报，19页pdf

专知会员服务

96+阅读 · 2020年2月20日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

什么是语义角色标注？

什么是语义角色标注？

人工智能头条

18+阅读 · 2019年4月28日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

数据派THU

14+阅读 · 2017年11月26日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

LATA: A Tool for LLM-Assisted Translation Annotation

Arxiv

0+阅读 · 2月11日

A large-scale pipeline for automatic corpus annotation using LLMs: variation and change in the English consider construction

Arxiv

0+阅读 · 2月10日

Unsupervised Cross-Lingual Part-of-Speech Tagging with Monolingual Corpora Only

Arxiv

0+阅读 · 2月10日

Modelling and Classifying the Components of a Literature Review

Arxiv

0+阅读 · 2月9日

Simulating Word Suggestion Usage in Mobile Typing to Guide Intelligent Text Entry Design

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

From Labels to Facets: Building a Taxonomically Enriched Turkish Learner Corpus

Arxiv

0+阅读 · 1月30日

The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations

Arxiv

0+阅读 · 1月24日

CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning

Arxiv

0+阅读 · 1月21日

A Tool for Semantic-Aware Spatial Corpus Construction

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

4+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

专知会员服务

90+阅读 · 2023年9月20日

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

专知会员服务

38+阅读 · 2023年8月29日

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

知识图谱到底如何落地？这本书《设计与构建企业知识图谱》阐述企业重数据库与知识图谱的关联，168页pdf

专知会员服务

123+阅读 · 2022年5月29日

《人工智能面向机器学习的数据标注规程》国家标准意见稿

《人工智能面向机器学习的数据标注规程》国家标准意见稿

专知会员服务

117+阅读 · 2022年2月24日

【经典书】自然语言标注—用于机器学习，341页pdf

【经典书】自然语言标注—用于机器学习，341页pdf

专知会员服务

55+阅读 · 2021年2月12日

【干货书】面向机器学习的自然语言标注，341页pdf

【干货书】面向机器学习的自然语言标注，341页pdf

专知会员服务

68+阅读 · 2021年2月7日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

数据标注研究综述，软件学报，19页pdf

数据标注研究综述，软件学报，19页pdf

专知会员服务

96+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

什么是语义角色标注？

什么是语义角色标注？

人工智能头条

18+阅读 · 2019年4月28日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

数据派THU

14+阅读 · 2017年11月26日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

LATA: A Tool for LLM-Assisted Translation Annotation

Arxiv

0+阅读 · 2月11日

A large-scale pipeline for automatic corpus annotation using LLMs: variation and change in the English consider construction

Arxiv

0+阅读 · 2月10日

Unsupervised Cross-Lingual Part-of-Speech Tagging with Monolingual Corpora Only

Arxiv

0+阅读 · 2月10日

Modelling and Classifying the Components of a Literature Review

Arxiv

0+阅读 · 2月9日

Simulating Word Suggestion Usage in Mobile Typing to Guide Intelligent Text Entry Design

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

From Labels to Facets: Building a Taxonomically Enriched Turkish Learner Corpus

Arxiv

0+阅读 · 1月30日

The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations

Arxiv

0+阅读 · 1月24日

CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning

Arxiv

0+阅读 · 1月21日

A Tool for Semantic-Aware Spatial Corpus Construction

Arxiv

0+阅读 · 1月21日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员