AuditFraudBench: Benchmarking Audit Judgment in Detecting Fraudulent Misstatements - 专知论文

会员服务 ·

0

基准 · 报告 · 基准测试 · 识别 · 大语言模型 ·

AuditFraudBench: Benchmarking Audit Judgment in Detecting Fraudulent Misstatements

翻译：AuditFraudBench：审计判断在欺诈性错报检测中的基准测试

Zhiwei Liu,Yueru He,Qing Ou,Tianlei Zhu,Xiaorui Guo,Xueqing Peng,Sophia Ananiadou

from arxiv, Work in progress

Large language models (LLMs) have shown strong performance in financial analysis and surface-level factual error detection, yet their ability to identify fraudulent financial misinformation in audited corporate reporting remains underexplored. Existing financial and audit benchmarks mainly focus on factual verification, numerical reasoning, rule compliance, or audit workflows, but rarely evaluate misleading disclosure narratives or management explanations that obscure the true drivers of reported performance. We introduce AuditFraudBench, an enforcement-grounded benchmark constructed from authentic company filings and regulatory materials, including original and restated 10-K and 10-Q filings, structured financial statements, MD&A disclosures, and SEC Accounting and Auditing Enforcement Releases (AAERs). AuditFraudBench contains three tasks: Profit Source Attribution, Misleading Narrative Detection, and Fraud Pattern Classification, which evaluate whether models can identify the true source of reported performance, detect misleading disclosure framing, and classify misconduct mechanisms into known manipulation patterns. We evaluate GPT, DeepSeek, and Qwen series LLMs on the benchmark. Results show that both proprietary and open models still struggle to jointly reason over financial figures, disclosure framing, restatement evidence, and enforcement-grounded fraud mechanisms. AuditFraudBench provides a challenging testbed for audit-relevant, evidence-grounded evaluation of LLMs in financial reporting.

翻译：大型语言模型（LLM）在财务分析及表面事实错误检测中展现出较强性能，但其识别经审计企业报告中欺诈性财务信息的能力仍待深入探究。现有金融与审计基准主要聚焦于事实核查、数值推理、规则合规性及审计工作流，鲜少评估对掩盖报告业绩真实动因的误导性披露叙事或管理层解释。本文提出AuditFraudBench——一个基于真实公司备案文件与监管材料的执法导向基准，涵盖原始及重述后的10-K和10-Q文件、结构化财务报表、MD&A披露以及美国证券交易委员会会计与审计执法公告（AAER）。该基准包含三个任务：利润来源归因、误导性叙事检测及欺诈模式分类，旨在评估模型能否识别报告业绩的真实来源、检测误导性披露框架，并将不当行为机制归类至已知操纵模式。我们基于该基准评估了GPT、DeepSeek及Qwen系列LLM。结果表明，无论是专有模型还是开源模型，在联合推理财务数据、披露框架、重述证据及执法导向欺诈机制方面仍存在困难。AuditFraudBench为LLM在财务报告领域的审计相关、证据导向评估提供了具有挑战性的测试平台。

0

相关内容

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

25+阅读 · 5月30日

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

15+阅读 · 2025年7月3日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

专知会员服务

18+阅读 · 2024年7月22日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

浅谈最广泛应用的金融风控算法-评分卡

浅谈最广泛应用的金融风控算法-评分卡

凡人机器学习

10+阅读 · 2020年8月3日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

视线估计(Gaze Estimation)简介(一)：概述

视线估计(Gaze Estimation)简介(一)：概述

CVer

10+阅读 · 2020年3月18日

【质量检测】机器视觉表面缺陷检测综述

【质量检测】机器视觉表面缺陷检测综述

产业智能官

30+阅读 · 2018年9月24日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

上市公司内部控制重大缺陷披露行为选择研究

国家自然科学基金

0+阅读 · 2015年12月31日

前瞻性非财务信息披露质量研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

风险信息披露、风险感知与资本市场风险识别行为

国家自然科学基金

1+阅读 · 2014年12月31日

我国上市公司大股东违规的行为监测与风险评估

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

Arxiv

0+阅读 · 6月16日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 6月10日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月10日

AudioProcessBench: Benchmark for Identifying Process Errors in Audio-Grounded Reasoning

Arxiv

0+阅读 · 6月7日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月3日

AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

Arxiv

0+阅读 · 6月2日

CapBencher: Give Your LLM Benchmark a Built-in Alarm for Test-Set Overfitting

Arxiv

0+阅读 · 5月30日

LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers

Arxiv

0+阅读 · 5月25日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 5月17日

LegalCiteBench: Evaluating Citation Reliability in Legal Language Models

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

25+阅读 · 5月30日

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

15+阅读 · 2025年7月3日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

专知会员服务

18+阅读 · 2024年7月22日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

浅谈最广泛应用的金融风控算法-评分卡

浅谈最广泛应用的金融风控算法-评分卡

凡人机器学习

10+阅读 · 2020年8月3日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

视线估计(Gaze Estimation)简介(一)：概述

视线估计(Gaze Estimation)简介(一)：概述

CVer

10+阅读 · 2020年3月18日

【质量检测】机器视觉表面缺陷检测综述

【质量检测】机器视觉表面缺陷检测综述

产业智能官

30+阅读 · 2018年9月24日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

相关论文

EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

Arxiv

0+阅读 · 6月16日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 6月10日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月10日

AudioProcessBench: Benchmark for Identifying Process Errors in Audio-Grounded Reasoning

Arxiv

0+阅读 · 6月7日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月3日

AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

Arxiv

0+阅读 · 6月2日

CapBencher: Give Your LLM Benchmark a Built-in Alarm for Test-Set Overfitting

Arxiv

0+阅读 · 5月30日

LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers

Arxiv

0+阅读 · 5月25日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 5月17日

LegalCiteBench: Evaluating Citation Reliability in Legal Language Models

Arxiv

0+阅读 · 5月11日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

上市公司内部控制重大缺陷披露行为选择研究

国家自然科学基金

0+阅读 · 2015年12月31日

前瞻性非财务信息披露质量研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

风险信息披露、风险感知与资本市场风险识别行为

国家自然科学基金

1+阅读 · 2014年12月31日

我国上市公司大股东违规的行为监测与风险评估

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员