A Peek Behind the Curtain: Using Step-Around Prompt Engineering to Identify Bias and Misinformation in GenAI Models - 专知论文

会员服务 ·

0

Prompt · 有偏 · Engineering · 可辨认的 · MoDELS ·

A Peek Behind the Curtain: Using Step-Around Prompt Engineering to Identify Bias and Misinformation in GenAI Models

翻译：暂无翻译

Don Hickerson,Mike Perkins

from arxiv, v3 Substantial text changes and addition of structured framework

Step-around prompting is a form of adversarial prompt engineering in which a user strategically reframes, sequences, or contextualises requests to test whether a generative AI model's safety guardrails, alignment mechanisms, or bias mitigations can be undermined, inconsistently applied, or bypassed outright. This study examines this technique through the lens of academic ethics, situating it as a tool that has a clear impact on academic integrity, responsible conduct of research, duty of care to students, and institutional oversight of GenAI use in higher education. We argue that step-around prompting is one tool within the wider practice of audit, red-teaming, and institutional evaluation, and that its main value lies in documenting how representational, cultural, linguistic, disciplinary, and misinformation-related biases may appear across student-facing and research-facing uses of GenAI. To show why the ethical governance of this practice is required, we provide two illustrative examples of the technique in action, demonstrating how easily guardrails can be circumvented and what is at stake when they are. We clarify which bias categories are in scope and identify who should use the method and for what purposes. We conclude with an operational ethics-and-governance framework for controlled academic application, organised as two pillars (technical safeguards and ethical governance) and enacted through a decision and audit cycle that scales oversight to potential risk, grounded in harm minimisation, duty of care, transparency, proportionality, responsible disclosure, legal and contractual compliance, and student protection.

翻译：暂无翻译

0

相关内容

Prompt

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

专知会员服务

30+阅读 · 2025年10月2日

大语言模型表示工程的分类、机会与挑战

大语言模型表示工程的分类、机会与挑战

专知会员服务

22+阅读 · 2025年2月28日

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

专知会员服务

74+阅读 · 2024年3月24日

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

专知会员服务

43+阅读 · 2023年7月29日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

综述：基于GAN的图像翻译模型盘点

综述：基于GAN的图像翻译模型盘点

PaperWeekly

13+阅读 · 2019年9月2日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

香港中大-商汤科技联合实验室AAAI录用论文详解：ST-GCN时空图卷积网络模型

香港中大-商汤科技联合实验室AAAI录用论文详解：ST-GCN时空图卷积网络模型

商汤科技

12+阅读 · 2018年2月11日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于经验模式分解和跳步-广义回归神经网络的地球定向参数预报

国家自然科学基金

0+阅读 · 2015年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

聚合物纳米复合材料拉伸与剪切形变下的微观结构演变的分子动力学模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色距离场的异质材料的数字化建模与制造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

硅纳米材料的高阶本构模型及其在尺寸效应和表面效应研究中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂隧道线形条件下盾构掘进姿态控制模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification

Arxiv

0+阅读 · 6月23日

GENA3D: Generative Amodal 3D Modeling by Bridging 2D Priors and 3D Coherence

Arxiv

0+阅读 · 6月23日

SEMIR: Topology-Preserving Graph Minors for Thin-Structure Segmentation

Arxiv

0+阅读 · 6月22日

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Arxiv

0+阅读 · 6月20日

Verifiable Counterfactual Supervision for Process Reward Models

Arxiv

0+阅读 · 6月20日

Empirical Prompt Engineering for Construct Identification with Large Language Models

Arxiv

0+阅读 · 6月19日

Answer Engineering: Local Trajectory Editing for Protocol-Constrained Decision Making in Large Language Models

Arxiv

0+阅读 · 6月19日

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

Arxiv

0+阅读 · 6月17日

VeriBound: PAC-Bayesian Generalization Bounds for Process Reward Models Trained with Formal Verification Tools

Arxiv

0+阅读 · 6月17日

A finite-element-inspired bipartite graph learned simulator for manufacturability assessment in large-deformation sheet forming

Arxiv

0+阅读 · 6月16日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

8+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

2+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

专知会员服务

30+阅读 · 2025年10月2日

大语言模型表示工程的分类、机会与挑战

大语言模型表示工程的分类、机会与挑战

专知会员服务

22+阅读 · 2025年2月28日

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

专知会员服务

74+阅读 · 2024年3月24日

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

专知会员服务

43+阅读 · 2023年7月29日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

综述：基于GAN的图像翻译模型盘点

综述：基于GAN的图像翻译模型盘点

PaperWeekly

13+阅读 · 2019年9月2日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

香港中大-商汤科技联合实验室AAAI录用论文详解：ST-GCN时空图卷积网络模型

香港中大-商汤科技联合实验室AAAI录用论文详解：ST-GCN时空图卷积网络模型

商汤科技

12+阅读 · 2018年2月11日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification

Arxiv

0+阅读 · 6月23日

GENA3D: Generative Amodal 3D Modeling by Bridging 2D Priors and 3D Coherence

Arxiv

0+阅读 · 6月23日

SEMIR: Topology-Preserving Graph Minors for Thin-Structure Segmentation

Arxiv

0+阅读 · 6月22日

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Arxiv

0+阅读 · 6月20日

Verifiable Counterfactual Supervision for Process Reward Models

Arxiv

0+阅读 · 6月20日

Empirical Prompt Engineering for Construct Identification with Large Language Models

Arxiv

0+阅读 · 6月19日

Answer Engineering: Local Trajectory Editing for Protocol-Constrained Decision Making in Large Language Models

Arxiv

0+阅读 · 6月19日

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

Arxiv

0+阅读 · 6月17日

VeriBound: PAC-Bayesian Generalization Bounds for Process Reward Models Trained with Formal Verification Tools

Arxiv

0+阅读 · 6月17日

A finite-element-inspired bipartite graph learned simulator for manufacturability assessment in large-deformation sheet forming

Arxiv

0+阅读 · 6月16日

相关基金

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于经验模式分解和跳步-广义回归神经网络的地球定向参数预报

国家自然科学基金

0+阅读 · 2015年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

聚合物纳米复合材料拉伸与剪切形变下的微观结构演变的分子动力学模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色距离场的异质材料的数字化建模与制造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

硅纳米材料的高阶本构模型及其在尺寸效应和表面效应研究中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂隧道线形条件下盾构掘进姿态控制模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员