Web applications rely heavily on hyperlinks to connect disparate information resources. However, the dynamic nature of the web leads to link rot, where targets become unavailable, and more insidiously, semantic drift, where a valid HTTP 200 connection exists, but the target content no longer aligns with the source context. Traditional verification tools, which primarily function as crash oracles by checking HTTP status codes, often fail to detect semantic inconsistencies, thereby compromising web integrity and user experience. While Large Language Models (LLMs) offer semantic understanding, they suffer from high latency, privacy concerns, and prohibitive costs for large-scale regression testing. In this paper, we propose SemLink, a novel automated test oracle for semantic hyperlink verification. SemLink leverages a Siamese Neural Network architecture powered by a pre-trained Sentence-BERT (SBERT) backbone to compute the semantic coherence between a hyperlink's source context (anchor text, surrounding DOM elements, and visual features) and its target page content. To train and evaluate our model, we introduce the Hyperlink-Webpage Positive Pairs (HWPPs) dataset, a rigorously constructed corpus of over 60,000 semantic pairs. Our evaluation demonstrates that SemLink achieves a Recall of 96.00%, comparable to state-of-the-art LLMs (GPT-5.2), while operating approximately 47.5 times faster and requiring significantly fewer computational resources. This work bridges the gap between traditional syntactic checkers and expensive generative AI, offering a robust and efficient solution for automated web quality assurance.


翻译:[translated abstract in Chinese] 网络应用高度依赖超链接来连接分散的信息资源。然而,网络的动态特性导致链接失效(目标不可用),以及更为隐蔽的语义漂移(存在有效的HTTP 200连接,但目标内容不再与源上下文匹配)。传统验证工具主要作为崩溃预言机,通过检查HTTP状态码来工作,往往无法检测语义不一致性,从而损害网络完整性和用户体验。尽管大型语言模型(LLMs)具备语义理解能力,但在大规模回归测试中,它们存在高延迟、隐私问题以及高昂成本等缺陷。本文提出SemLink,一种新颖的自动测试预言机,用于语义超链接验证。SemLink利用基于预训练Sentence-BERT(SBERT)骨干网络的孪生神经网络架构,计算超链接源上下文(锚文本、周围DOM元素及视觉特征)与目标页面内容之间的语义一致性。为训练和评估模型,我们引入了超链接-网页正对(HWPPs)数据集——一个严格构建的包含超过60,000个语义对的语料库。评估结果表明,SemLink的召回率达到96.00%,与最先进的LLM(GPT-5.2)相当,同时运行速度提高约47.5倍,且所需计算资源显著减少。本研究弥合了传统语法检查方法与昂贵生成式AI之间的鸿沟,为自动化网络质量保障提供了稳健高效的解决方案。

0
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
14+阅读 · 2025年11月18日
【SIGIR2024教程】基于大语言模型的信息检索代理
专知会员服务
39+阅读 · 2024年7月17日
专知会员服务
17+阅读 · 2021年9月8日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
14+阅读 · 2025年11月18日
【SIGIR2024教程】基于大语言模型的信息检索代理
专知会员服务
39+阅读 · 2024年7月17日
专知会员服务
17+阅读 · 2021年9月8日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
相关资讯
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员