Semantic Superiority vs. Forensic Efficiency: A Comparative Analysis of Deep Learning and Psycholinguistics for Business Email Compromise Detection - 专知论文

会员服务 ·

0

Semantic Superiority vs. Forensic Efficiency: A Comparative Analysis of Deep Learning and Psycholinguistics for Business Email Compromise Detection

翻译：语义优势与取证效率：深度学习和心理语言学在商务邮件欺诈检测中的比较分析

Yaw Osei Adjei,Frederick Ayivor

from arxiv, 8 pages, 10 figures, 8 tables. Accepted to the 7th IEEE Silicon Valley Cybersecurity Conference (SVCC 2026), San Jose, CA, USA, June 10-12, 2026

Business Email Compromise (BEC) is a high-impact social engineering threat with extreme operational asymmetry: false negatives can trigger large financial losses, while false positives primarily incur investigation and delay costs. This paper compares two BEC detection paradigms under a cost-sensitive decision framework: (i) a semantic transformer approach (DistilBERT) for contextual language understanding, and (ii) a forensic psycholinguistic approach (CatBoost) using engineered linguistic and structural cues. We evaluate both on a hybrid dataset (N = 7,990) combining legitimate corporate email and AI-synthesised adversarial fraud generated across 30 BEC taxonomies, including character-level Unicode obfuscations. We add classical baselines (TF-IDF+LogReg and character n-gram+Linear SVM), an ablation study for the Smiling Assassin Score, and a homoglyph-map sensitivity analysis. DistilBERT achieves AUC = 1.0000 and F1 = 0.9981 at 7.403 ms per email on GPU; CatBoost achieves AUC = 0.9860 and F1 = 0.9382 at 0.855 ms on CPU. A three-way cost-sensitive decision policy (auto-allow, auto-block, manual review) optimises expected financial loss under a 1:5,167 false-negative-to-false-positive cost ratio.

翻译：商务邮件欺诈（BEC）是一种高影响力的社交工程威胁，具有极端的操作不对称性：漏报可能导致巨额经济损失，而误报主要产生调查和延迟成本。本文在成本敏感的决策框架下比较了两种BEC检测范式：（i）基于语义的Transformer方法（DistilBERT）进行上下文语言理解，（ii）采用工程化语言和结构线索的取证心理语言学方法（CatBoost）。我们在一个混合数据集（样本量N=7,990）上对两者进行评估，该数据集结合了合法企业邮件和跨越30种BEC分类学（包括字符级Unicode混淆）的AI合成对抗欺诈文本。我们添加了经典基线方法（TF-IDF+逻辑回归和字符n-gram+线性支持向量机）、“微笑刺客”得分的消融实验以及同形字映射敏感性分析。DistilBERT在GPU上达到AUC=1.0000和F1=0.9981，每封邮件处理时间7.403毫秒；CatBoost在CPU上达到AUC=0.9860和F1=0.9382，每封邮件处理时间0.855毫秒。一种三向成本敏感决策策略（自动放行、自动拦截、人工审核）在1:5,167的漏报-误报成本比率下优化了预期财务损失。

0

相关内容

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

专知会员服务

10+阅读 · 3月16日

DGP双粒度提示框架：图增强大模型助力欺诈检测

DGP双粒度提示框架：图增强大模型助力欺诈检测

专知会员服务

9+阅读 · 2025年8月17日

图神经网络在金融欺诈检测中的应用综述

图神经网络在金融欺诈检测中的应用综述

专知会员服务

28+阅读 · 2024年11月22日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

图异常检测在金融反欺诈中的应用研究进展

图异常检测在金融反欺诈中的应用研究进展

专知会员服务

50+阅读 · 2022年11月20日

《综述：基于博弈论和机器学习的防御性欺骗方法》

《综述：基于博弈论和机器学习的防御性欺骗方法》

专知会员服务

51+阅读 · 2022年10月2日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

社交网络中的虚假信息:定义、检测及控制

专知会员服务

28+阅读 · 2021年8月15日

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

专知会员服务

79+阅读 · 2020年2月12日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【智能金融】机器学习在反欺诈中应用

【智能金融】机器学习在反欺诈中应用

产业智能官

35+阅读 · 2019年3月15日

干货解析 | 如何通过用户的行为序列来提升欺诈风险识别

干货解析 | 如何通过用户的行为序列来提升欺诈风险识别

蚂蚁程序猿

13+阅读 · 2018年9月7日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LLM-Assisted Authentication and Fraud Detection

Arxiv

0+阅读 · 4月28日

Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

Arxiv

0+阅读 · 4月23日

Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

Arxiv

0+阅读 · 4月22日

Beyond RAG for Cyber Threat Intelligence: A Systematic Evaluation of Graph-Based and Agentic Retrieval

Arxiv

0+阅读 · 4月13日

TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models

Arxiv

0+阅读 · 4月1日

Deep Recurrent Hidden Markov Learning Framework for Multi-Stage Advanced Persistent Threat Prediction

Arxiv

0+阅读 · 4月1日

Context-Aware Phishing Email Detection Using Machine Learning and NLP

Arxiv

0+阅读 · 3月28日

Network- and Device-Level Cyber Deception for Contested Environments Using RL and LLMs

Network- and Device-Level Cyber Deception for Contested Environments Using RL and LLMs

Arxiv

0+阅读 · 3月18日

Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

Arxiv

0+阅读 · 2月28日

Assessing the Impact of Speaker Identity in Speech Spoofing Detection

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

0+阅读 · 今天12:32

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

0+阅读 · 今天12:28

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

10+阅读 · 今天3:53

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

专知会员服务

20+阅读 · 今天3:03

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

专知会员服务

15+阅读 · 今天2:35

《实现协作自主：从人机团队到多智能体系统》190页

《实现协作自主：从人机团队到多智能体系统》190页

专知会员服务

11+阅读 · 今天2:31

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

专知会员服务

7+阅读 · 今天2:28

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

专知会员服务

8+阅读 · 今天2:25

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

4+阅读 · 5月12日

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

7+阅读 · 5月12日

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

11+阅读 · 5月12日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

11+阅读 · 5月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

22+阅读 · 5月12日

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

10+阅读 · 5月12日

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

9+阅读 · 5月12日

相关VIP内容

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

专知会员服务

10+阅读 · 3月16日

DGP双粒度提示框架：图增强大模型助力欺诈检测

DGP双粒度提示框架：图增强大模型助力欺诈检测

专知会员服务

9+阅读 · 2025年8月17日

图神经网络在金融欺诈检测中的应用综述

图神经网络在金融欺诈检测中的应用综述

专知会员服务

28+阅读 · 2024年11月22日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

图异常检测在金融反欺诈中的应用研究进展

图异常检测在金融反欺诈中的应用研究进展

专知会员服务

50+阅读 · 2022年11月20日

《综述：基于博弈论和机器学习的防御性欺骗方法》

《综述：基于博弈论和机器学习的防御性欺骗方法》

专知会员服务

51+阅读 · 2022年10月2日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

社交网络中的虚假信息:定义、检测及控制

专知会员服务

28+阅读 · 2021年8月15日

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

专知会员服务

79+阅读 · 2020年2月12日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

世界动作模型: 具身AI的下一个前沿

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

【博士论文】面向可扩展且可信智能系统的强化学习

全球十大防空反导系统：列表、射程与用途

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【智能金融】机器学习在反欺诈中应用

【智能金融】机器学习在反欺诈中应用

产业智能官

35+阅读 · 2019年3月15日

干货解析 | 如何通过用户的行为序列来提升欺诈风险识别

干货解析 | 如何通过用户的行为序列来提升欺诈风险识别

蚂蚁程序猿

13+阅读 · 2018年9月7日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

相关论文

LLM-Assisted Authentication and Fraud Detection

Arxiv

0+阅读 · 4月28日

Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

Arxiv

0+阅读 · 4月23日

Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

Arxiv

0+阅读 · 4月22日

Beyond RAG for Cyber Threat Intelligence: A Systematic Evaluation of Graph-Based and Agentic Retrieval

Arxiv

0+阅读 · 4月13日

TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models

Arxiv

0+阅读 · 4月1日

Deep Recurrent Hidden Markov Learning Framework for Multi-Stage Advanced Persistent Threat Prediction

Arxiv

0+阅读 · 4月1日

Context-Aware Phishing Email Detection Using Machine Learning and NLP

Arxiv

0+阅读 · 3月28日

Network- and Device-Level Cyber Deception for Contested Environments Using RL and LLMs

Network- and Device-Level Cyber Deception for Contested Environments Using RL and LLMs

Arxiv

0+阅读 · 3月18日

Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

Arxiv

0+阅读 · 2月28日

Assessing the Impact of Speaker Identity in Speech Spoofing Detection

Arxiv

0+阅读 · 2月24日

相关基金

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员