LLMs are ubiquitous in modern NLP, and while their applicability extends to texts produced for democratic activities such as online deliberations or large-scale citizen consultations, ethical questions have been raised for their usage as analysis tools. We continue this line of research with two main goals: (a) to develop resources that can help standardize citizen contributions in public forums at the pragmatic level, and make them easier to use in topic modeling and political analysis; (b) to study how well this standardization can reliably be performed by small, open-weights LLMs, i.e. models that can be run locally and transparently with limited resources. Accordingly, we introduce Corpus Clarification as a preprocessing framework for large-scale consultation data that transforms noisy, multi-topic contributions into structured, self-contained argumentative units ready for downstream analysis. We present GDN-CC, a manually-curated dataset of 1,231 contributions to the French Grand Débat National, comprising 2,285 argumentative units annotated for argumentative structure and manually clarified. We then show that finetuned Small Language Models match or outperform LLMs on reproducing these annotations, and measure their usability for an opinion clustering task. We finally release GDN-CC-large, an automatically annotated corpus of 240k contributions, the largest annotated democratic consultation dataset to date.


翻译:大语言模型(LLM)在现代自然语言处理中无处不在,尽管其适用性已扩展到为民主活动(如在线审议或大规模公民协商)生成的文本,但将其用作分析工具已引发伦理质疑。我们延续这一研究方向,主要有两个目标:(a) 开发能够在语用层面帮助标准化公共论坛中公民贡献的资源,使其更易于用于主题建模和政治分析;(b) 研究这种标准化任务能够被小型开放权重LLM(即可在资源有限条件下本地透明运行的模型)可靠执行的程度。为此,我们提出语料库澄清作为大规模协商数据的预处理框架,将嘈杂、多主题的贡献转化为结构化、自包含的论证单元,以供下游分析使用。我们发布了GDN-CC数据集,这是一个包含1,231条法国“全国大辩论”贡献的手工整理数据集,涵盖2,285个经过论证结构标注与人工澄清的论证单元。我们随后证明,经过微调的小型语言模型在复现这些标注方面达到或超越了LLM的性能,并评估了它们在意见聚类任务中的可用性。最后,我们发布了GDN-CC-large——一个包含24万条贡献的自动标注语料库,这是迄今规模最大的标注民主协商数据集。

0
下载
关闭预览

相关内容

CC:Computer Communications。 Explanation:计算机通信。 Publisher:Elsevier。 SIT: http://dblp.uni-trier.de/db/journals/comcom/
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
报告 | 腾讯知文,从0到1打造下一代智能问答引擎【CCF-GAIR】
机器学习算法与Python学习
13+阅读 · 2018年7月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员