Verification Required: The Impact of Information Credibility on AI Persuasion - 专知论文

会员服务 ·

0

信息可信度 · 交互 · 声明 · 蒸馏 · 智能体 ·

Verification Required: The Impact of Information Credibility on AI Persuasion

翻译：验证需求：信息可信度对人工智能说服力的影响

Saaduddin Mahmud,Eugene Bagdasarian,Shlomo Zilberstein

from arxiv, 19 pages, 5 figures

Agents powered by large language models (LLMs) are increasingly deployed in settings where communication shapes high-stakes decisions, making a principled understanding of strategic communication essential. Prior work largely studies either unverifiable cheap-talk or fully verifiable disclosure, failing to capture realistic domains in which information has probabilistic credibility. We introduce MixTalk, a strategic communication game for LLM-to-LLM interaction that models information credibility. In MixTalk, a sender agent strategically combines verifiable and unverifiable claims to communicate private information, while a receiver agent allocates a limited budget to costly verification and infers the underlying state from prior beliefs, claims, and verification outcomes. We evaluate state-of-the-art LLM agents in large-scale tournaments across three realistic deployment settings, revealing their strengths and limitations in reasoning about information credibility and the explicit behavior that shapes these interactions. Finally, we propose Tournament Oracle Policy Distillation (TOPD), an offline method that distills tournament oracle policy from interaction logs and deploys it in-context at inference time. Our results show that TOPD significantly improves receiver robustness to persuasion.

翻译：基于大型语言模型（LLM）的智能体正日益部署在沟通影响高风险决策的场景中，这使得对策略性沟通的原则性理解变得至关重要。先前研究主要集中于不可验证的廉价沟通或完全可验证的信息披露，未能捕捉信息具有概率可信度的现实领域。我们提出了MixTalk，一种为LLM间交互建模信息可信度的策略性沟通博弈。在MixTalk中，发送方智能体策略性地结合可验证与不可验证的声明来传递私有信息，而接收方智能体则将有限预算分配给成本高昂的验证过程，并依据先验信念、声明内容及验证结果来推断潜在状态。我们在三种现实部署场景下通过大规模锦标赛评估了最先进的LLM智能体，揭示了它们在推理信息可信度及塑造这些交互的显式行为方面的优势与局限。最后，我们提出了锦标赛先知策略蒸馏（TOPD），这是一种从交互日志中蒸馏锦标赛先知策略的离线方法，并在推理时进行上下文部署。实验结果表明，TOPD能显著提升接收方对说服策略的鲁棒性。

0

相关内容

信息可信度

信息可信度

【斯坦福博士论文】提升大语言模型知识获取的可信度

【斯坦福博士论文】提升大语言模型知识获取的可信度

专知会员服务

24+阅读 · 3月7日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

VeriWeb: Verifiable Long-Chain Web Benchmark for Agentic Information-Seeking

Arxiv

0+阅读 · 2月27日

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Arxiv

0+阅读 · 2月26日

How much does context affect the accuracy of AI health advice?

Arxiv

0+阅读 · 2月24日

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

Arxiv

0+阅读 · 2月17日

Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning

Arxiv

0+阅读 · 2月16日

MAPS: A Multilingual Benchmark for Agent Performance and Security

Arxiv

0+阅读 · 2月10日

The Refutability Gap: Challenges in Validating Reasoning by Large Language Models

Arxiv

0+阅读 · 2月10日

OpenDeception: Learning Deception and Trust in Human-AI Interaction via Multi-Agent Simulation

Arxiv

0+阅读 · 2月6日

Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models

Arxiv

0+阅读 · 2月3日

Belief Updating and Delegation in Multi-Task Human-AI Interaction: Evidence from Controlled Simulations

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

信息可信度

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

2+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

18+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

5+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

16+阅读 · 4月18日

相关VIP内容

【斯坦福博士论文】提升大语言模型知识获取的可信度

【斯坦福博士论文】提升大语言模型知识获取的可信度

专知会员服务

24+阅读 · 3月7日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

相关论文

VeriWeb: Verifiable Long-Chain Web Benchmark for Agentic Information-Seeking

Arxiv

0+阅读 · 2月27日

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Arxiv

0+阅读 · 2月26日

How much does context affect the accuracy of AI health advice?

Arxiv

0+阅读 · 2月24日

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

Arxiv

0+阅读 · 2月17日

Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning

Arxiv

0+阅读 · 2月16日

MAPS: A Multilingual Benchmark for Agent Performance and Security

Arxiv

0+阅读 · 2月10日

The Refutability Gap: Challenges in Validating Reasoning by Large Language Models

Arxiv

0+阅读 · 2月10日

OpenDeception: Learning Deception and Trust in Human-AI Interaction via Multi-Agent Simulation

Arxiv

0+阅读 · 2月6日

Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models

Arxiv

0+阅读 · 2月3日

Belief Updating and Delegation in Multi-Task Human-AI Interaction: Evidence from Controlled Simulations

Arxiv

0+阅读 · 2月2日

相关基金

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员