论证政治立场预测的有效性验证 (Validating Political Position Predictions of Arguments) - 专知论文

会员服务 ·

0

知识 · 有效性 · 知识表征 · 属性 · 构建 ·

Validating Political Position Predictions of Arguments

翻译：论证政治立场预测的有效性验证

Jordan Robinson,Angus R. Williams,Katie Atkinson,Anthony G. Cohn

from arxiv, 13 pages, 6 figures, 6 tables. Under review

Real-world knowledge representation often requires capturing subjective, continuous attributes -- such as political positions -- that conflict with pairwise validation, the widely accepted gold standard for human evaluation. We address this challenge through a dual-scale validation framework applied to political stance prediction in argumentative discourse, combining pointwise and pairwise human annotation. Using 22 language models, we construct a large-scale knowledge base of political position predictions for 23,228 arguments drawn from 30 debates that appeared on the UK politicial television programme \textit{Question Time}. Pointwise evaluation shows moderate human-model agreement (Krippendorff's $α=0.578$), reflecting intrinsic subjectivity, while pairwise validation reveals substantially stronger alignment between human- and model-derived rankings ($α=0.86$ for the best model). This work contributes: (i) a practical validation methodology for subjective continuous knowledge that balances scalability with reliability; (ii) a validated structured argumentation knowledge base enabling graph-based reasoning and retrieval-augmented generation in political domains; and (iii) evidence that ordinal structure can be extracted from pointwise language models predictions from inherently subjective real-world discourse, advancing knowledge representation capabilities for domains where traditional symbolic or categorical approaches are insufficient.

翻译：现实世界中的知识表征常常需要捕捉主观的、连续的属性——例如政治立场——这些属性与广泛接受的人类评估黄金标准即两两验证存在冲突。我们通过应用于论证性话语中政治立场预测的双尺度验证框架来解决这一挑战，该框架结合了点对点和两两人工标注。使用22个语言模型，我们构建了一个大规模知识库，包含从英国政治电视节目《质询时间》中30场辩论抽取的23,228个论证的政治立场预测。点对点评估显示人机间存在中等程度的一致性（Krippendorff's $α=0.578$），反映了内在的主观性；而两两验证则揭示了人类与模型得出的排序之间存在显著更强的对齐性（最佳模型的 $α=0.86$）。本工作的贡献在于：（i）提出了一种针对主观连续知识的实用验证方法，在可扩展性与可靠性之间取得平衡；（ii）构建了一个经过验证的结构化论证知识库，支持政治领域的图推理和检索增强生成；（iii）提供了证据，表明可以从本质上主观的现实世界话语中，从点对点语言模型预测中提取出序数结构，从而提升了传统符号或分类方法不足的领域的知识表征能力。

0

相关内容

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

20+阅读 · 2024年3月18日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

专知会员服务

13+阅读 · 2022年3月15日

文本立场检测综述

文本立场检测综述

专知会员服务

34+阅读 · 2021年11月2日

证据推理理论及其应用

专知会员服务

48+阅读 · 2021年5月24日

【WWW2021】实体自适应语义依赖图立场检测

专知会员服务

22+阅读 · 2021年4月15日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Arxiv

0+阅读 · 3月10日

Predictively Oriented Posteriors

Arxiv

0+阅读 · 2月20日

Improving Stance Detection by Leveraging Measurement Knowledge from Social Sciences: A Case Study of Dutch Political Tweets and Traditional Gender Role Division

Arxiv

0+阅读 · 2月19日

TruthStance: An Annotated Dataset of Conversations on Truth Social

Arxiv

0+阅读 · 2月16日

Retrieval- and Argumentation-Enhanced Multi-Agent LLMs for Judgmental Forecasting (Extended Version with Supplementary Material)

Arxiv

0+阅读 · 2月11日

Estimating the Value of Evidence-Based Decision Making

Arxiv

0+阅读 · 2月9日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

DimStance: Multilingual Datasets for Dimensional Stance Analysis

Arxiv

0+阅读 · 2月6日

Prediction Laundering: The Illusion of Neutrality, Transparency, and Governance in Polymarket

Arxiv

0+阅读 · 2月5日

Exploiting contextual information to improve stance detection in informal political discourse with LLMs

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

6+阅读 · 今天6:31

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

4+阅读 · 今天6:28

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

1+阅读 · 今天6:23

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

3+阅读 · 今天6:19

美军有人-无人协同作战的下一阶段演进：分布式电子战构想

美军有人-无人协同作战的下一阶段演进：分布式电子战构想

专知会员服务

2+阅读 · 今天6:06

不对称优势上升：自主系统如何强化海上拒止

不对称优势上升：自主系统如何强化海上拒止

专知会员服务

1+阅读 · 今天5:51

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

专知会员服务

4+阅读 · 4月17日

美军“数据2030”概念设想：数字化杀伤链统一标准

美军“数据2030”概念设想：数字化杀伤链统一标准

专知会员服务

3+阅读 · 4月17日

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

6+阅读 · 4月17日

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

2+阅读 · 4月17日

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

3+阅读 · 4月17日

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

2+阅读 · 4月17日

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

2+阅读 · 4月17日

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

2+阅读 · 4月17日

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

4+阅读 · 4月17日

相关VIP内容

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

20+阅读 · 2024年3月18日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

专知会员服务

13+阅读 · 2022年3月15日

文本立场检测综述

文本立场检测综述

专知会员服务

34+阅读 · 2021年11月2日

证据推理理论及其应用

专知会员服务

48+阅读 · 2021年5月24日

【WWW2021】实体自适应语义依赖图立场检测

专知会员服务

22+阅读 · 2021年4月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《第四代军事特种作战部队选拔与评估》

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Arxiv

0+阅读 · 3月10日

Predictively Oriented Posteriors

Arxiv

0+阅读 · 2月20日

Improving Stance Detection by Leveraging Measurement Knowledge from Social Sciences: A Case Study of Dutch Political Tweets and Traditional Gender Role Division

Arxiv

0+阅读 · 2月19日

TruthStance: An Annotated Dataset of Conversations on Truth Social

Arxiv

0+阅读 · 2月16日

Retrieval- and Argumentation-Enhanced Multi-Agent LLMs for Judgmental Forecasting (Extended Version with Supplementary Material)

Arxiv

0+阅读 · 2月11日

Estimating the Value of Evidence-Based Decision Making

Arxiv

0+阅读 · 2月9日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

DimStance: Multilingual Datasets for Dimensional Stance Analysis

Arxiv

0+阅读 · 2月6日

Prediction Laundering: The Illusion of Neutrality, Transparency, and Governance in Polymarket

Arxiv

0+阅读 · 2月5日

Exploiting contextual information to improve stance detection in informal political discourse with LLMs

Arxiv

0+阅读 · 2月4日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员