GDN-CC数据集：面向AI增强型民主公民协商的自动语料库澄清 (The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations) - 专知论文

会员服务 ·

0

CC · 语料 · 语料库 · 标注 · 数据集 ·

The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations

翻译：GDN-CC数据集：面向AI增强型民主公民协商的自动语料库澄清

Pierre-Antoine Lequeu,Léo Labat,Laurène Cave,Gaël Lejeune,François Yvon,Benjamin Piwowarski

from arxiv, 31 pages including 22 for references and appendix, 13 figures

LLMs are ubiquitous in modern NLP, and while their applicability extends to texts produced for democratic activities such as online deliberations or large-scale citizen consultations, ethical questions have been raised for their usage as analysis tools. We continue this line of research with two main goals: (a) to develop resources that can help standardize citizen contributions in public forums at the pragmatic level, and make them easier to use in topic modeling and political analysis; (b) to study how well this standardization can reliably be performed by small, open-weights LLMs, i.e. models that can be run locally and transparently with limited resources. Accordingly, we introduce Corpus Clarification as a preprocessing framework for large-scale consultation data that transforms noisy, multi-topic contributions into structured, self-contained argumentative units ready for downstream analysis. We present GDN-CC, a manually-curated dataset of 1,231 contributions to the French Grand Débat National, comprising 2,285 argumentative units annotated for argumentative structure and manually clarified. We then show that finetuned Small Language Models match or outperform LLMs on reproducing these annotations, and measure their usability for an opinion clustering task. We finally release GDN-CC-large, an automatically annotated corpus of 240k contributions, the largest annotated democratic consultation dataset to date.

翻译：大语言模型（LLM）在现代自然语言处理中无处不在，尽管其适用性已扩展到为民主活动（如在线审议或大规模公民协商）生成的文本，但将其用作分析工具已引发伦理质疑。我们延续这一研究方向，主要有两个目标：(a) 开发能够在语用层面帮助标准化公共论坛中公民贡献的资源，使其更易于用于主题建模和政治分析；(b) 研究这种标准化任务能够被小型开放权重LLM（即可在资源有限条件下本地透明运行的模型）可靠执行的程度。为此，我们提出语料库澄清作为大规模协商数据的预处理框架，将嘈杂、多主题的贡献转化为结构化、自包含的论证单元，以供下游分析使用。我们发布了GDN-CC数据集，这是一个包含1,231条法国“全国大辩论”贡献的手工整理数据集，涵盖2,285个经过论证结构标注与人工澄清的论证单元。我们随后证明，经过微调的小型语言模型在复现这些标注方面达到或超越了LLM的性能，并评估了它们在意见聚类任务中的可用性。最后，我们发布了GDN-CC-large——一个包含24万条贡献的自动标注语料库，这是迄今规模最大的标注民主协商数据集。

0

相关内容

CC：Computer Communications。 Explanation：计算机通信。 Publisher：Elsevier。 SIT： http://dblp.uni-trier.de/db/journals/comcom/

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

专知会员服务

30+阅读 · 2025年9月29日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

专知会员服务

67+阅读 · 2022年9月17日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

机器学习算法与Python学习

13+阅读 · 2018年7月4日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks

Arxiv

0+阅读 · 2月3日

Towards On-Device Personalization: Cloud-device Collaborative Data Augmentation for Efficient On-device Language Model

Arxiv

0+阅读 · 1月27日

Ethical Risk Assessment of the Data Harnessing Process of LLM supported on Consensus of Well-known Multi-Ethical Frameworks

Arxiv

0+阅读 · 1月24日

AgentDrive: An Open Benchmark Dataset for Agentic AI Reasoning with LLM-Generated Scenarios in Autonomous Systems

Arxiv

0+阅读 · 1月23日

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature

Arxiv

0+阅读 · 1月22日

The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations

Arxiv

0+阅读 · 1月21日

ConvoLearn: A Dataset of Constructivist Tutor-Student Dialogue

Arxiv

0+阅读 · 1月13日

SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments

Arxiv

0+阅读 · 1月12日

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

Arxiv

0+阅读 · 1月12日

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

Arxiv

0+阅读 · 1月2日

VIP会员

文章信息

相关主题

相关VIP内容

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

专知会员服务

30+阅读 · 2025年9月29日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

专知会员服务

67+阅读 · 2022年9月17日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

乌克兰开放真实战场数据以训练国防人工智能

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

美陆军下一代指挥控制（NGC2）原型系统借助Raft数据平台展示快速决策能力

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

报告 | 腾讯知文，从0到1打造下一代智能问答引擎【CCF-GAIR】

机器学习算法与Python学习

13+阅读 · 2018年7月4日

相关论文

The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks

Arxiv

0+阅读 · 2月3日

Towards On-Device Personalization: Cloud-device Collaborative Data Augmentation for Efficient On-device Language Model

Arxiv

0+阅读 · 1月27日

Ethical Risk Assessment of the Data Harnessing Process of LLM supported on Consensus of Well-known Multi-Ethical Frameworks

Arxiv

0+阅读 · 1月24日

AgentDrive: An Open Benchmark Dataset for Agentic AI Reasoning with LLM-Generated Scenarios in Autonomous Systems

Arxiv

0+阅读 · 1月23日

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature

Arxiv

0+阅读 · 1月22日

The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations

Arxiv

0+阅读 · 1月21日

ConvoLearn: A Dataset of Constructivist Tutor-Student Dialogue

Arxiv

0+阅读 · 1月13日

SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments

Arxiv

0+阅读 · 1月12日

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

Arxiv

0+阅读 · 1月12日

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

Arxiv

0+阅读 · 1月2日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员