This document, based on feedback from UMR TETIS members and the scientific literature, provides a generic methodology for creating annotation guidelines and annotated textual datasets (corpora). It covers methodological aspects, as well as storage, sharing, and valorization of the data. It includes definitions and examples to clearly illustrate each step of the process, thus providing a comprehensive framework to support the creation and use of corpora in various research contexts.


翻译:本文档基于UMR TETIS团队成员的反馈和科学文献,提供了一套用于创建标注指南和标注文本数据集(语料库)的通用方法论。该方法论涵盖方法论层面,以及数据的存储、共享和价值实现。文档通过定义和实例清晰阐释流程的每个环节,从而为不同研究场景下语料库的创建与使用提供完整的框架支持。

0
下载
关闭预览

相关内容

【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
55+阅读 · 2021年2月12日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
68+阅读 · 2021年2月7日
数据标注研究综述,软件学报,19页pdf
专知会员服务
95+阅读 · 2020年2月20日
什么是语义角色标注?
人工智能头条
18+阅读 · 2019年4月28日
收藏 | 中文公开聊天语料库及使用方法(附链接)
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员