We present a vision-language model (VLM) that automatically edits website HTML to address violations of the Web Content Accessibility Guidelines 2 (WCAG2) while preserving the original design. We formulate this as a supervised image-conditioned program synthesis task, where the model learns to correct HTML given both the code and its visual rendering. We create WebAccessVL, a website dataset with manually corrected accessibility violations. We then propose a violation-conditioned VLM that further takes the detected violations' descriptions from a checker as input. This conditioning enables an iterative checker-in-the-loop refinement strategy at test time. We conduct extensive evaluation on both open API and open-weight models. Empirically, our method achieves 0.211 violations per website, a 96.0\% reduction from the 5.34 violations in raw data and 87\% better than GPT-5. A perceptual study also confirms that our edited websites better maintain the original visual appearance and content.


翻译:我们提出了一种视觉语言模型(VLM),它能自动编辑网站HTML以解决违反《网络内容可访问性指南2》(WCAG2)的问题,同时保持原始设计。我们将此任务形式化为一个监督式的图像条件程序合成问题,模型学习在给定代码及其视觉渲染的情况下修正HTML。我们创建了WebAccessVL,这是一个包含人工修正可访问性违规的网站数据集。随后,我们提出了一种违规条件VLM,它进一步将检测器发现的违规描述作为输入。这种条件化使得在测试时能够采用一种迭代的“检测器在环”优化策略。我们对开放API和开放权重模型进行了广泛评估。实验表明,我们的方法实现了每个网站0.211次违规,相较于原始数据中的5.34次违规减少了96.0%,并且比GPT-5提升了87%。一项感知研究也证实,我们编辑后的网站能更好地保持原始视觉外观和内容。

0
下载
关闭预览

相关内容

超文本标记语言(英文:HyperText Markup Language,HTML)是为“网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言。
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
13+阅读 · 2018年3月30日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
相关资讯
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
13+阅读 · 2018年3月30日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员