Supercharging Agenda Setting Research: The ParlaCAP Dataset of 28 European Parliaments and a Scalable Multilingual LLM-Based Classification - 专知论文

会员服务 ·

0

标注 · 数据集 · 分类器 · CAP · 演讲 ·

Supercharging Agenda Setting Research: The ParlaCAP Dataset of 28 European Parliaments and a Scalable Multilingual LLM-Based Classification

翻译：增强议程设置研究能力：涵盖28个欧洲议会的ParlaCAP数据集与可扩展的多语言大语言模型分类方法

Taja Kuzman Pungeršek,Peter Rupnik,Daniela Širinić,Nikola Ljubešić

from arxiv, 17 pages, 7 figures, 7 tables. Submitted to the PoliticalNLP 2026 workshop, co-located with LREC 2026 conference

This paper introduces ParlaCAP, a large-scale dataset for analyzing parliamentary agenda setting across Europe, and proposes a cost-effective method for building domain-specific policy topic classifiers. Applying the Comparative Agendas Project (CAP) schema to the multilingual ParlaMint corpus of over 8 million speeches from 28 parliaments of European countries and autonomous regions, we follow a teacher-student framework in which a high-performing large language model (LLM) annotates in-domain training data and a multilingual encoder model is fine-tuned on these annotations for scalable data annotation. We show that this approach produces a classifier tailored to the target domain. Agreement between the LLM and human annotators is comparable to inter-annotator agreement among humans, and the resulting model outperforms existing CAP classifiers trained on manually-annotated but out-of-domain data. In addition to the CAP annotations, the ParlaCAP dataset offers rich speaker and party metadata, as well as sentiment predictions coming from the ParlaSent multilingual transformer model, enabling comparative research on political attention and representation across countries. We illustrate the analytical potential of the dataset with three use cases, examining the distribution of parliamentary attention across policy topics, sentiment patterns in parliamentary speech, and gender differences in policy attention.

翻译：本文介绍了ParlaCAP——一个用于分析欧洲议会议程设置的大规模数据集，并提出了一种构建领域特定政策主题分类器的经济高效方法。通过将比较议程项目（CAP）框架应用于包含28个欧洲国家及自治地区议会超过800万次演讲的多语言ParlaMint语料库，我们采用师生框架：高性能大语言模型（LLM）标注领域内训练数据，多语言编码器模型基于这些标注进行微调，从而实现可扩展的数据标注。研究表明，该方法能生成针对目标领域定制的分类器。LLM与人工标注者之间的一致性达到人类标注者间一致性的可比水平，且所得模型性能优于基于人工标注但领域外数据训练的现有CAP分类器。除CAP标注外，ParlaCAP数据集还提供丰富的演讲者与政党元数据，以及来自ParlaSent多语言Transformer模型的情感预测结果，支持跨国政治关注与代表模式的比较研究。我们通过三个应用案例展示数据集的分析潜力：考察议会关注在不同政策主题间的分布、议会演讲中的情感模式，以及政策关注中的性别差异。

0

相关内容

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

专知会员服务

18+阅读 · 2025年12月27日

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

【ACL2024】用于去偏大语言模型的因果引导主动学习，哈工大SCIR荣获国际顶级会议ACL 2024杰出论文奖

【ACL2024】用于去偏大语言模型的因果引导主动学习，哈工大SCIR荣获国际顶级会议ACL 2024杰出论文奖

专知会员服务

17+阅读 · 2024年8月17日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大模型如何做检索增强？ACL2023开会了！陈丹琦等最新《基于检索的大语言模型及其应用》教程，400多页PPT

大模型如何做检索增强？ACL2023开会了！陈丹琦等最新《基于检索的大语言模型及其应用》教程，400多页PPT

专知会员服务

111+阅读 · 2023年7月9日

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

专知会员服务

19+阅读 · 2022年5月28日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

专知会员服务

25+阅读 · 2020年3月15日

【AAAI Tutorials 2019】深度贝叶斯与序列学习（ Deep Bayesian and Sequential Learning）

【AAAI Tutorials 2019】深度贝叶斯与序列学习（ Deep Bayesian and Sequential Learning）

专知会员服务

72+阅读 · 2019年11月18日

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

专知会员服务

10+阅读 · 2019年11月17日

ACL 2019 | 微软8篇精选论文解读，一览最新研究进展

ACL 2019 | 微软8篇精选论文解读，一览最新研究进展

微软研究院AI头条

12+阅读 · 2019年6月28日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

2019版CCF推荐国际学术会议和期刊目录发布！AI领域七大A类会议，你认同吗？

2019版CCF推荐国际学术会议和期刊目录发布！AI领域七大A类会议，你认同吗？

黑龙江大学自然语言处理实验室

10+阅读 · 2019年5月1日

大数据 | 顶级SCI期刊专刊/国际会议信息7条

大数据 | 顶级SCI期刊专刊/国际会议信息7条

Call4Papers

10+阅读 · 2018年12月29日

重构 Palantir 数据模型

重构 Palantir 数据模型

待字闺中

34+阅读 · 2018年12月27日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

揭秘最神秘的大数据公司 Palantir

揭秘最神秘的大数据公司 Palantir

数据库开发

21+阅读 · 2017年11月13日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

社会化商务环境下基于中智集和云模型的推荐方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂网络的商务大数据聚类与关联应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月11日

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月8日

LogiPart: Local Large Language Models for Data Exploration at Scale with Logical Partitioning

Arxiv

0+阅读 · 2月17日

ParaCook: On Time-Efficient Planning for Multi-Agent Systems

Arxiv

0+阅读 · 2月15日

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models

Arxiv

0+阅读 · 2月15日

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

Arxiv

0+阅读 · 2月10日

LLM-CoOpt: A Co-Design and Optimization Framework for Efficient LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月10日

CitiLink: Enhancing Municipal Transparency and Citizen Engagement through Searchable Meeting Minutes

Arxiv

0+阅读 · 2月9日

Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process

Arxiv

0+阅读 · 2月6日

PALM: PAnoramic Learning Map Integrating Learning Analytics and Curriculum Map for Scalable Insights Across Courses

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

《MERLIN：面向推广资源与研究的国家数据管理平台》报告

专知会员服务

18+阅读 · 2025年12月27日

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

【新书】学习 LangChain：使用 LangChain 和 LangGraph 构建 AI 和大语言模型应用，404页pdf

专知会员服务

50+阅读 · 2025年2月24日

【ACL2024】用于去偏大语言模型的因果引导主动学习，哈工大SCIR荣获国际顶级会议ACL 2024杰出论文奖

【ACL2024】用于去偏大语言模型的因果引导主动学习，哈工大SCIR荣获国际顶级会议ACL 2024杰出论文奖

专知会员服务

17+阅读 · 2024年8月17日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大模型如何做检索增强？ACL2023开会了！陈丹琦等最新《基于检索的大语言模型及其应用》教程，400多页PPT

大模型如何做检索增强？ACL2023开会了！陈丹琦等最新《基于检索的大语言模型及其应用》教程，400多页PPT

专知会员服务

111+阅读 · 2023年7月9日

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

最新! 语音顶级会议ICASSP2022最佳论文出炉, 美国范德堡大学和澳大利亚国立大学等获最佳论文,中科院LSEC等获最佳学生

专知会员服务

19+阅读 · 2022年5月28日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

专知会员服务

25+阅读 · 2020年3月15日

【AAAI Tutorials 2019】深度贝叶斯与序列学习（ Deep Bayesian and Sequential Learning）

【AAAI Tutorials 2019】深度贝叶斯与序列学习（ Deep Bayesian and Sequential Learning）

专知会员服务

72+阅读 · 2019年11月18日

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

专知会员服务

10+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

ACL 2019 | 微软8篇精选论文解读，一览最新研究进展

ACL 2019 | 微软8篇精选论文解读，一览最新研究进展

微软研究院AI头条

12+阅读 · 2019年6月28日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

2019版CCF推荐国际学术会议和期刊目录发布！AI领域七大A类会议，你认同吗？

2019版CCF推荐国际学术会议和期刊目录发布！AI领域七大A类会议，你认同吗？

黑龙江大学自然语言处理实验室

10+阅读 · 2019年5月1日

大数据 | 顶级SCI期刊专刊/国际会议信息7条

大数据 | 顶级SCI期刊专刊/国际会议信息7条

Call4Papers

10+阅读 · 2018年12月29日

重构 Palantir 数据模型

重构 Palantir 数据模型

待字闺中

34+阅读 · 2018年12月27日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

揭秘最神秘的大数据公司 Palantir

揭秘最神秘的大数据公司 Palantir

数据库开发

21+阅读 · 2017年11月13日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

相关论文

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月11日

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月8日

LogiPart: Local Large Language Models for Data Exploration at Scale with Logical Partitioning

Arxiv

0+阅读 · 2月17日

ParaCook: On Time-Efficient Planning for Multi-Agent Systems

Arxiv

0+阅读 · 2月15日

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models

Arxiv

0+阅读 · 2月15日

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

Arxiv

0+阅读 · 2月10日

LLM-CoOpt: A Co-Design and Optimization Framework for Efficient LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月10日

CitiLink: Enhancing Municipal Transparency and Citizen Engagement through Searchable Meeting Minutes

Arxiv

0+阅读 · 2月9日

Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process

Arxiv

0+阅读 · 2月6日

PALM: PAnoramic Learning Map Integrating Learning Analytics and Curriculum Map for Scalable Insights Across Courses

Arxiv

0+阅读 · 2月3日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

社会化商务环境下基于中智集和云模型的推荐方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂网络的商务大数据聚类与关联应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员