In this paper, we introduce the first fully manually annotated paraphrase corpus for Finnish containing 53,572 paraphrase pairs harvested from alternative subtitles and news headings. Out of all paraphrase pairs in our corpus 98% are manually classified to be paraphrases at least in their given context, if not in all contexts. Additionally, we establish a manual candidate selection method and demonstrate its feasibility in high quality paraphrase selection in terms of both cost and quality.


翻译:在本文中,我们为芬兰人引入了第一个完全人工手动附加说明的副句,其中包含了从替代字幕和新闻标题中提取的53 572对副句子。 在我们的文稿98%的所有副句子中,至少有98%被手工归类为在特定情况下(如果不是在所有情况下)的副句子。此外,我们制定了一个人工选择候选人的方法,并用成本和质量两方面的高质量副句子选择来证明其可行性。

0
下载
关闭预览

相关内容

《碳中和愿景下储能产业发展白皮书》27页ppt
专知会员服务
66+阅读 · 2021年3月30日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
55+阅读 · 2020年9月7日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
170+阅读 · 2020年4月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
37+阅读 · 2020年3月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
11+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Paraphrase Generation with Deep Reinforcement Learning
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
4+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
2+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
6+阅读 · 4月15日
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关VIP内容
《碳中和愿景下储能产业发展白皮书》27页ppt
专知会员服务
66+阅读 · 2021年3月30日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
55+阅读 · 2020年9月7日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
170+阅读 · 2020年4月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
37+阅读 · 2020年3月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Top
微信扫码咨询专知VIP会员