GuideWeb: A Benchmark for Automatic In-App Guide Generation on Real-World Web UIs - 专知论文

会员服务 ·

0

基准 · BLEU · 覆盖 · 操作 · 工具 ·

GuideWeb: A Benchmark for Automatic In-App Guide Generation on Real-World Web UIs

翻译：GuideWeb：一个面向真实网页界面的应用内引导自动生成基准

Chengguang Gan,Yoshihiro Tsujii,Yunhao Liang,Tatsunori Mori,Shiwen Ni,Hiroki Itoh

Digital Adoption Platform (DAP) provide web-based overlays that deliver operation guidance and contextual hints to help users navigate complex websites. Although modern DAP tools enable non-experts to author such guidance, maintaining these guides remains labor-intensive because website layouts and functionalities evolve continuously, which requires repeated manual updates and re-annotation. In this work, we introduce \textbf{GuideWeb}, a new benchmark for automatic in-app guide generation on real-world web UIs. GuideWeb formulates the task as producing page-level guidance by selecting \textbf{guide target elements} grounded in the webpage and generating concise guide text aligned with user intent. We also propose a comprehensive evaluation suite that jointly measures the accuracy of guide target element selection and the quality of generated intents and guide texts. Experiments show that our proposed \textbf{GuideWeb Agent} achieves \textbf{30.79\%} accuracy in guide target element prediction, while obtaining BLEU scores of \textbf{44.94} for intent generation and \textbf{21.34} for guide-text generation. Existing baselines perform substantially worse, which highlights that automatic guide generation remains challenging and that further advances are necessary before such systems can be reliably deployed in real-world settings.

翻译：数字应用平台（DAP）通过提供基于网页的覆盖层，向用户传递操作指导和上下文提示，以帮助其浏览复杂网站。尽管现代DAP工具允许非专业人员编写此类引导，但由于网站布局与功能持续演进，需要重复进行手动更新与重新标注，导致维护这些引导仍然劳动密集。本文提出 **GuideWeb**，一个面向真实网页界面的应用内引导自动生成新基准。GuideWeb 将该任务定义为：通过选择网页中**引导目标元素**并生成符合用户意图的简洁引导文本，以产出页面级引导。我们还提出一套综合评估方案，联合度量引导目标元素选择的准确性以及生成意图与引导文本的质量。实验表明，我们提出的 **GuideWeb Agent** 在引导目标元素预测上达到 **30.79%** 的准确率，同时在意图生成上获得 **44.94** 的BLEU分数，在引导文本生成上获得 **21.34** 的BLEU分数。现有基线模型表现显著更差，这凸显了自动引导生成仍具挑战性，在此类系统能够可靠部署于真实场景之前，仍需进一步的技术突破。

0

相关内容

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

专知会员服务

38+阅读 · 2023年8月29日

数据中台实践指南（1.0版），44页pdf

数据中台实践指南（1.0版），44页pdf

专知会员服务

54+阅读 · 2023年7月1日

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

专知会员服务

26+阅读 · 2023年6月6日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

31+阅读 · 2022年12月29日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知会员服务

45+阅读 · 2022年4月11日

最新！《智慧城市感知终端应用指南》国家标准意见稿发布，15页pdf

最新！《智慧城市感知终端应用指南》国家标准意见稿发布，15页pdf

专知会员服务

31+阅读 · 2022年3月22日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

Webkiller 简单利用

Webkiller 简单利用

黑白之道

11+阅读 · 2019年6月11日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

面向互联网大数据的用户兴趣挖掘及预测研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

State Your Intention to Steer Your Attention: An AI Assistant for Intentional Digital Living

Arxiv

0+阅读 · 3月2日

Automated Web Application Testing: End-to-End Test Case Generation with Large Language Models and Screen Transition Graphs

Arxiv

0+阅读 · 2月19日

EmbeWebAgent: Embedding Web Agents into Any Customized UI

Arxiv

0+阅读 · 2月16日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

Preference-Guided Prompt Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems

Arxiv

0+阅读 · 2月13日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

Simulating Word Suggestion Usage in Mobile Typing to Guide Intelligent Text Entry Design

Arxiv

0+阅读 · 2月6日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

3+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

4+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

2+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

1+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

《网络安全标准实践指南——生成式人工智能服务内容标识方法》发布

专知会员服务

38+阅读 · 2023年8月29日

数据中台实践指南（1.0版），44页pdf

数据中台实践指南（1.0版），44页pdf

专知会员服务

54+阅读 · 2023年7月1日

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

专知会员服务

26+阅读 · 2023年6月6日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

31+阅读 · 2022年12月29日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知会员服务

45+阅读 · 2022年4月11日

最新！《智慧城市感知终端应用指南》国家标准意见稿发布，15页pdf

最新！《智慧城市感知终端应用指南》国家标准意见稿发布，15页pdf

专知会员服务

31+阅读 · 2022年3月22日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

Webkiller 简单利用

Webkiller 简单利用

黑白之道

11+阅读 · 2019年6月11日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

相关论文

State Your Intention to Steer Your Attention: An AI Assistant for Intentional Digital Living

Arxiv

0+阅读 · 3月2日

Automated Web Application Testing: End-to-End Test Case Generation with Large Language Models and Screen Transition Graphs

Arxiv

0+阅读 · 2月19日

EmbeWebAgent: Embedding Web Agents into Any Customized UI

Arxiv

0+阅读 · 2月16日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

Preference-Guided Prompt Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems

Arxiv

0+阅读 · 2月13日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

Simulating Word Suggestion Usage in Mobile Typing to Guide Intelligent Text Entry Design

Arxiv

0+阅读 · 2月6日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

相关基金

面向互联网大数据的用户兴趣挖掘及预测研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员