Detecting the anomalies of web applications, important infrastructures for running modern companies and governments, is crucial for providing reliable web services. Many modern web applications operate on web APIs (e.g., RESTful, SOAP, and WebSockets), their exposure invites intended attacks or unintended illegal visits, causing abnormal system behaviors. However, such anomalies can share very similar logs with normal logs, missing crucial information (which could be in database) for log discrimination. Further, log instances can be also noisy, which can further mislead the state-of-the-art log learning solutions to learn spurious correlation, resulting superficial models and rules for anomaly detection. In this work, we propose MINES which infers explainable API invariants for anomaly detection from the schema level instead of detailed raw log instances, which can (1) significantly discriminate noise in logs to identify precise normalities and (2) detect abnormal behaviors beyond the instrumented logs. Technically, MINES (1) converts API signatures into table schema to enhance the original database shema; and (2) infers the potential database constraints on the enhanced database schema to capture the potential relationships between APIs and database tables. MINES uses LLM for extracting potential relationship based on two given table structures; and use normal log instances to reject and accept LLM-generated invariants. Finally, MINES translates the inferred constraints into invariants to generate Python code for verifying the runtime logs. We extensively evaluate MINES on web-tamper attacks on the benchmarks of TrainTicket, NiceFish, Gitea, Mastodon, and NextCloud against baselines such as LogRobust, LogFormer, and WebNorm. The results show that MINES achieves high recall for the anomalies while introducing almost zero false positives, indicating a new state-of-the-art.


翻译:检测Web应用的异常——作为现代企业和政府运行的重要基础设施——对于提供可靠的Web服务至关重要。许多现代Web应用基于Web API(如RESTful、SOAP和WebSockets)运行,其暴露性会招致预期攻击或意外非法访问,导致系统行为异常。然而,此类异常可能与正常日志共享高度相似的记录,缺失用于日志判别的关键信息(可能存在于数据库中)。此外,日志实例可能包含噪声,进一步误导现有最先进的日志学习方案学习虚假关联,从而产生用于异常检测的浅层模型与规则。本文提出MINES方法,从模式层面而非原始日志实例细节中推断可解释的API不变式用于异常检测,该方法能够:(1) 显著区分日志中的噪声以识别精确的正常行为;(2) 检测超出日志记录范围的异常行为。技术层面,MINES (1) 将API签名转换为表模式以增强原始数据库模式;(2) 在增强后的数据库模式上推断潜在的数据库约束,捕获API与数据库表之间的潜在关联。MINES利用大语言模型(LLM)基于两个给定表结构提取潜在关系,并通过正常日志实例拒绝或接受LLM生成的不变式。最终,MINES将推断的约束转化为不变式,生成用于验证运行时日志的Python代码。我们基于TrainTicket、NiceFish、Gitea、Mastodon及NextCloud基准测试中的Web篡改攻击,与LogRobust、LogFormer和WebNorm等基线方法进行对比评估。结果表明,MINES在实现异常高召回率的同时几乎零误报,达到了新的最先进水平。

0
下载
关闭预览

相关内容

《边缘云异常检测的机器学习》最新博士论文
专知会员服务
27+阅读 · 2024年8月8日
《利用视觉问题解答进行异常检测》美陆军实验室报告
专知会员服务
24+阅读 · 2024年5月21日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
专知会员服务
34+阅读 · 2021年9月16日
专知会员服务
17+阅读 · 2021年9月8日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员