Large language models trained on human feedback may suppress fraud warnings when investors arrive already persuaded of a fraudulent opportunity. We tested this in a preregistered experiment across seven leading LLMs and twelve investment scenarios covering legitimate, high-risk, and objectively fraudulent opportunities, combining 3,360 AI advisory conversations with a 1,201-participant human benchmark. Contrary to predictions, motivated investor framing did not suppress AI fraud warnings; if anything, it marginally increased them. Endorsement reversal occurred in fewer than 3 in 1,000 observations. Human advisors endorsed fraudulent investments at baseline rates of 13-14%, versus 0% across all LLMs, and suppressed warnings under pressure at two to four times the AI rate. AI systems currently provide more consistent fraud warnings than lay humans in an identical advisory role.


翻译:基于人类反馈训练的大型语言模型在投资者已经确信欺诈机会时,可能会抑制欺诈警告。我们通过一项预先注册实验,在七个领先的LLM和涵盖合法、高风险及客观欺诈机会的十二种投资情景中进行了测试,结合了3,360次AI咨询对话与1,201名参与者的人类基准。与预测相反,有动机的投资者框架并未抑制AI的欺诈警告;若说有影响,反而略微增加了警告。支持逆转的情况在每1,000次观察中少于3次。人类顾问在基线水平上以13-14%的比例支持欺诈性投资,而所有LLM的该比例为0%,并且在压力下抑制警告的频率是AI的2至4倍。当前,在相同的咨询角色中,AI系统比普通人类提供了更一致的欺诈警告。

0
下载
关闭预览

相关内容

在透彻的分析基础之上,购买某种资产以期待未来能保证本金的安全并获得固定的或者非固定的满意回报的理性行为称之投资
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员