SMS fraud is increasingly cross-channel: a message directs the user to a webpage, and the final risk depends on how the SMS claim aligns with the page content and requested user action. However, existing evaluations either focus on message-only smishing classification or expose URL and domain cues that allow models to rely on reputation shortcuts. To address this gap, we introduce \textbf{FraudSMSWalker}, a controlled benchmark for URL-masked SMS-to-webpage fraud judgment. FraudSMSWalker contains 699 bilingual chains, including 332 fraudulent and 367 benign cases, across ten service scenarios. The model-visible input consists of the SMS context and sanitized webpage evidence, while raw URLs, hosts, domains, IPs, redirects, and reputation metadata are withheld. The benchmark further includes hard benign cases whose pages contain login, payment, verification, or account-management elements that are plausible under the service context but also appear in scam flows. We evaluate nine web agents under masked browser-agent protocols and conduct URL-visibility ablations. The results show that current agents can detect suspicious cues, but struggle to preserve benign recall and often produce positive predictions that are weakly supported by the observed evidence. These findings position FraudSMSWalker as a benchmark for measuring whether web agents can make fraud judgments that remain both accurate and evidence-grounded when direct reputation shortcuts are suppressed. The associated code and dataset are accessible at the \href{https://anonymous.4open.science/w/FraudMessageWalker-Bench}{anonymous link}.


翻译:短信欺诈日益呈现跨渠道特征:一条消息引导用户访问网页,最终风险取决于短信声明与页面内容及所请求用户操作的一致性。然而,现有评估要么聚焦于纯短信的钓鱼分类,要么暴露了使模型能够依赖声誉捷径的URL和域名线索。为弥补这一空白,我们提出了**FraudSMSWalker**——一个面向隐藏URL的短信到网页欺诈判断的可控基准。FraudSMSWalker包含699条双语链,涵盖10个服务场景,其中欺诈案例332条、良性案例367条。模型可见输入由短信上下文和经过清洗的网页证据组成,而原始URL、主机、域名、IP地址、重定向路径及声誉元数据均被排除。该基准进一步包含困难良性案例,其页面包含登录、支付、验证或账户管理要素,这些要素既可能在服务情境下合理出现,也常存在于诈骗流程中。我们在屏蔽浏览器代理协议下评估了九种网络代理,并进行了URL可见性消融实验。结果表明:当前代理能够检测可疑线索,但难以保持良性召回率,且其产生的正向预测往往缺乏观察证据的有力支持。这些发现将FraudSMSWalker定位为衡量网络代理在直接声誉捷径被抑制时,能否做出既准确又基于证据的欺诈判断的基准。相关代码与数据集可访问匿名链接获取。

0
下载
关闭预览

相关内容

DGP双粒度提示框架:图增强大模型助力欺诈检测
专知会员服务
9+阅读 · 2025年8月17日
虚假信息检测综述
专知会员服务
8+阅读 · 2025年7月9日
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
45+阅读 · 2024年1月23日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
Web渗透测试Fuzz字典分享
黑白之道
21+阅读 · 2019年5月22日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
Web渗透测试Fuzz字典分享
黑白之道
21+阅读 · 2019年5月22日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员