GDN-CC数据集：面向AI增强型民主公民协商的语料库自动澄清 (The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations) - 专知论文

会员服务 ·

0

标注 · CC · 语料 · 语料库 · 数据集 ·

The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations

翻译：GDN-CC数据集：面向AI增强型民主公民协商的语料库自动澄清

Pierre-Antoine Lequeu,Léo Labat,Laurène Cave,Gaël Lejeune,François Yvon,Benjamin Piwowarski

from arxiv, 31 pages including 22 for references and appendix, 13 figures

LLMs are ubiquitous in modern NLP, and while their applicability extends to texts produced for democratic activities such as online deliberations or large-scale citizen consultations, ethical questions have been raised for their usage as analysis tools. We continue this line of research with two main goals: (a) to develop resources that can help standardize citizen contributions in public forums at the pragmatic level, and make them easier to use in topic modeling and political analysis; (b) to study how well this standardization can reliably be performed by small, open-weights LLMs, i.e. models that can be run locally and transparently with limited resources. Accordingly, we introduce Corpus Clarification as a preprocessing framework for large-scale consultation data that transforms noisy, multi-topic contributions into structured, self-contained argumentative units ready for downstream analysis. We present GDN-CC, a manually-curated dataset of 1,231 contributions to the French Grand Débat National, comprising 2,285 argumentative units annotated for argumentative structure and manually clarified. We then show that finetuned Small Language Models match or outperform LLMs on reproducing these annotations, and measure their usability for an opinion clustering task. We finally release GDN-CC-large, an automatically annotated corpus of 240k contributions, the largest annotated democratic consultation dataset to date.

翻译：大语言模型在现代自然语言处理中无处不在，尽管其适用性已扩展至为民主活动（如在线审议或大规模公民协商）生成的文本，但将其用作分析工具已引发伦理质疑。我们延续这一研究方向，主要目标有二：(a) 开发能够在语用层面帮助标准化公共论坛中公民贡献的资源，使其更易于用于主题建模与政治分析；(b) 研究这种标准化工作能在多大程度上由小型开放权重大语言模型可靠地完成，即那些可在本地以有限资源透明运行的模型。为此，我们提出语料库澄清作为大规模协商数据的预处理框架，将嘈杂、多主题的贡献转化为结构化、自包含的论证单元，以供下游分析使用。我们发布了GDN-CC数据集——一个包含1,231条法国"全国大辩论"贡献的手工标注数据集，涵盖2,285个经论证结构标注与人工澄清的论证单元。实验表明，经过微调的小型语言模型在复现这些标注任务上达到或超越了大语言模型的性能，并通过意见聚类任务评估了其实用性。我们最终开源了GDN-CC-large——包含24万条贡献的自动标注语料库，这是迄今规模最大的标注民主协商数据集。

0

相关内容

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

2024年中国AI基础数据服务研究报告

2024年中国AI基础数据服务研究报告

专知会员服务

39+阅读 · 2024年7月12日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

【ChatGPT系列报告】AIGC投资框架，66页ppt

【ChatGPT系列报告】AIGC投资框架，66页ppt

专知会员服务

78+阅读 · 2023年6月15日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

机器学习算法与Python学习

13+阅读 · 2018年7月4日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于复杂网络的商务大数据聚类与关联应用研究

国家自然科学基金

1+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks

Arxiv

0+阅读 · 2月3日

OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data

Arxiv

0+阅读 · 2月2日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

Ethical Risk Assessment of the Data Harnessing Process of LLM supported on Consensus of Well-known Multi-Ethical Frameworks

Arxiv

0+阅读 · 1月24日

AgentDrive: An Open Benchmark Dataset for Agentic AI Reasoning with LLM-Generated Scenarios in Autonomous Systems

Arxiv

0+阅读 · 1月23日

The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations

Arxiv

0+阅读 · 1月22日

Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs

Arxiv

0+阅读 · 1月22日

Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 1月19日

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference

Arxiv

0+阅读 · 1月15日

ConvoLearn: A Dataset of Constructivist Tutor-Student Dialogue

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

2024年中国AI基础数据服务研究报告

2024年中国AI基础数据服务研究报告

专知会员服务

39+阅读 · 2024年7月12日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

【ChatGPT系列报告】AIGC投资框架，66页ppt

【ChatGPT系列报告】AIGC投资框架，66页ppt

专知会员服务

78+阅读 · 2023年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

乌克兰开放真实战场数据以训练国防人工智能

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

美陆军下一代指挥控制（NGC2）原型系统借助Raft数据平台展示快速决策能力

相关资讯

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

机器学习算法与Python学习

13+阅读 · 2018年7月4日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

相关论文

The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks

Arxiv

0+阅读 · 2月3日

OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data

Arxiv

0+阅读 · 2月2日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

Ethical Risk Assessment of the Data Harnessing Process of LLM supported on Consensus of Well-known Multi-Ethical Frameworks

Arxiv

0+阅读 · 1月24日

AgentDrive: An Open Benchmark Dataset for Agentic AI Reasoning with LLM-Generated Scenarios in Autonomous Systems

Arxiv

0+阅读 · 1月23日

The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations

Arxiv

0+阅读 · 1月22日

Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs

Arxiv

0+阅读 · 1月22日

Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 1月19日

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference

Arxiv

0+阅读 · 1月15日

ConvoLearn: A Dataset of Constructivist Tutor-Student Dialogue

Arxiv

0+阅读 · 1月13日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于复杂网络的商务大数据聚类与关联应用研究

国家自然科学基金

1+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员