PReSS: A Black-Box Framework for Evaluating Political Stance Stability in LLMs via Argumentative Pressure - 专知论文

会员服务 ·

0

话题 · 黑盒 · 不稳定 · 语言模型 · 大语言模型 ·

PReSS: A Black-Box Framework for Evaluating Political Stance Stability in LLMs via Argumentative Pressure

翻译：PReSS：一种通过论证压力评估大语言模型政治立场稳定性的黑盒框架

Shariar Kabir,Kevin Esterling,Yue Dong

from arxiv, 13 pages, 8 figures

Existing evaluations of political bias in large language models (LLMs) typically classify outputs as left- or right-leaning. We extend this perspective by examining how ideological tendencies vary across topics and how consistently models maintain their positions, a property we refer to as stability. To capture this dimension, we propose PReSS (Political Response Stability under Stress), a black-box framework that evaluates LLMs by jointly considering model and topic context, categorizing responses into four stance types: stable-left, unstable-left, stable-right, and unstable-right. Applying PReSS to 12 widely used LLMs across 19 political topics reveals substantial variation in stance stability; for instance, a model that is left-leaning overall can exhibit stable-right behavior on certain topics. This highlights the importance of topic-aware and fine-grained evaluation of political ideologies of LLMs. Moreover, stability has practical implications for controlled generation and model alignment: interventions such as debiasing or ideology reversal should explicitly account for stance stability. Our empirical analyses reveal that when models are prompted or fine-tuned to adopt the opposite ideology, unstable topic stances are more likely to change, whereas stable ones resist modification. Thus, treating stability as a moderating factor provides a principled foundation for understanding, evaluating, and guiding interventions in politically sensitive model behavior.

翻译：现有的大语言模型（LLM）政治偏见评估通常将输出分类为左倾或右倾。我们通过考察意识形态倾向如何随话题变化以及模型如何一致地保持其立场（我们称之为稳定性）来拓展这一视角。为捕捉这一维度，我们提出了PReSS（压力下的政治响应稳定性），这是一个黑盒评估框架，通过综合考虑模型和话题语境，将响应分为四种立场类型：稳定左倾、不稳定左倾、稳定右倾和不稳定右倾。将PReSS应用于12个广泛使用的LLM在19个政治话题上的表现，揭示了立场稳定性的显著差异；例如，一个总体左倾的模型可能在特定话题上表现出稳定右倾行为。这凸显了对LLM政治意识形态进行话题感知和细粒度评估的重要性。此外，稳定性对于受控生成和模型对齐具有实际意义：诸如去偏见或意识形态反转等干预措施应明确考虑立场稳定性。我们的实证分析表明，当通过提示或微调使模型采用相反意识形态时，不稳定的话题立场更可能发生改变，而稳定的立场则抵抗修改。因此，将稳定性视为调节因素，为理解、评估和指导政治敏感模型行为的干预措施提供了原则性基础。

0

相关内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

专知会员服务

35+阅读 · 2025年10月10日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

专知

36+阅读 · 2022年7月26日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

深度解读 | 美国打压华为这事水很深——什么是华为？（1）

深度解读 | 美国打压华为这事水很深——什么是华为？（1）

混沌研习社广州分社

21+阅读 · 2019年6月27日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

北斗IGSO/MEO卫星偏航姿态模式下的光压摄动理论和模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

建立在文化度量空间上的国家风险分析

国家自然科学基金

3+阅读 · 2014年12月31日

移动社交网络中政府形象传播机理及治理研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Political Alignment in Large Language Models: A Multidimensional Audit of Psychometric Identity and Behavioral Bias

Arxiv

0+阅读 · 3月17日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 3月17日

LLM BiasScope: A Real-Time Bias Analysis Platform for Comparative LLM Evaluation

Arxiv

0+阅读 · 3月12日

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Arxiv

0+阅读 · 3月10日

SCOPE: Selective Conformal Optimized Pairwise LLM Judging

Arxiv

0+阅读 · 2月19日

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Arxiv

0+阅读 · 2月12日

Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs

Arxiv

0+阅读 · 2月11日

InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation

Arxiv

0+阅读 · 2月9日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 2月2日

Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

0+阅读 · 今天14:33

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

0+阅读 · 今天14:30

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

专知会员服务

4+阅读 · 今天14:07

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

专知会员服务

2+阅读 · 今天13:59

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

2+阅读 · 今天13:55

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

专知会员服务

1+阅读 · 今天13:52

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

1+阅读 · 今天1:50

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

4+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

4+阅读 · 6月5日

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

6+阅读 · 6月5日

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

6+阅读 · 6月5日

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

6+阅读 · 6月5日

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

13+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

16+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

13+阅读 · 6月4日

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

专知会员服务

35+阅读 · 2025年10月10日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

热门VIP内容

开通专知VIP会员享更多权益服务

长时程具身智能安全综述：机器人操作的跨层分析

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

ICML 2026 | SARDI：扩散语言模型的自增强检索

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

专知

36+阅读 · 2022年7月26日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

深度解读 | 美国打压华为这事水很深——什么是华为？（1）

深度解读 | 美国打压华为这事水很深——什么是华为？（1）

混沌研习社广州分社

21+阅读 · 2019年6月27日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

相关论文

Political Alignment in Large Language Models: A Multidimensional Audit of Psychometric Identity and Behavioral Bias

Arxiv

0+阅读 · 3月17日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 3月17日

LLM BiasScope: A Real-Time Bias Analysis Platform for Comparative LLM Evaluation

Arxiv

0+阅读 · 3月12日

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Arxiv

0+阅读 · 3月10日

SCOPE: Selective Conformal Optimized Pairwise LLM Judging

Arxiv

0+阅读 · 2月19日

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Arxiv

0+阅读 · 2月12日

Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs

Arxiv

0+阅读 · 2月11日

InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation

Arxiv

0+阅读 · 2月9日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 2月2日

Uncertainty and Fairness Awareness in LLM-Based Recommendation Systems

Arxiv

0+阅读 · 1月31日

相关基金

北斗IGSO/MEO卫星偏航姿态模式下的光压摄动理论和模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

建立在文化度量空间上的国家风险分析

国家自然科学基金

3+阅读 · 2014年12月31日

移动社交网络中政府形象传播机理及治理研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员