Web agents have demonstrated strong performance on a wide range of web-based tasks. However, existing research on the effect of environmental variation has mostly focused on robustness to adversarial attacks, with less attention to agents' preferences in benign scenarios. Although early studies have examined how textual attributes influence agent behavior, a systematic understanding of how visual attributes shape agent decision-making remains limited. To address this, we introduce VAF, a controlled evaluation pipeline for quantifying how webpage Visual Attribute Factors influence web-agent decision-making. Specifically, VAF consists of three stages: (i) variant generation, which ensures the variants share identical semantics as the original item while only differ in visual attributes; (ii) browsing interaction, where agents navigate the page via scrolling and clicking the interested item, mirroring how human users browse online; (iii) validating through both click action and reasoning from agents, which we use the Target Click Rate and Target Mention Rate to jointly evaluate the effect of visual attributes. By quantitatively measuring the decision-making difference between the original and variant, we identify which visual attributes influence agents' behavior most. Extensive experiments, across 8 variant families (48 variants total), 5 real-world websites (including shopping, travel, and news browsing), and 4 representative web agents, show that background color contrast, item size, position, and card clarity have a strong influence on agents' actions, whereas font styling, text color, and item image clarity exhibit minor effects.


翻译:网络智能体在广泛的网络任务中展现出强大的性能。然而,现有关于环境变化影响的研究大多集中于对抗攻击的鲁棒性,较少关注智能体在良性场景中的偏好。尽管早期研究已探讨了文本属性如何影响智能体行为,但对于视觉属性如何塑造智能体决策的系统性理解仍然有限。为此,我们提出了VAF,一个用于量化网页视觉属性因素如何影响网络智能体决策的受控评估流程。具体而言,VAF包含三个阶段:(i) 变体生成,确保变体与原始项目语义相同,仅视觉属性存在差异;(ii) 浏览交互,智能体通过滚动和点击感兴趣项目来导航页面,模拟人类用户的在线浏览方式;(iii) 通过智能体的点击行为和推理进行验证,我们使用目标点击率和目标提及率共同评估视觉属性的影响。通过定量测量原始版本与变体之间的决策差异,我们识别出哪些视觉属性对智能体行为影响最大。在8个变体族(共48个变体)、5个真实世界网站(包括购物、旅行和新闻浏览)以及4个代表性网络智能体上进行的大量实验表明,背景颜色对比度、项目大小、位置和卡片清晰度对智能体行为有显著影响,而字体样式、文本颜色和项目图像清晰度的影响较小。

0
下载
关闭预览

相关内容

一个具体事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系,都叫作事物的属性。 事物与属性是不可分的,事物都是有属性的事物,属性也都是事物的属性。 一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。 由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
AI 智能体系统:体系架构、应用场景及评估范式
面向应用的智能体 AI 系统价值对齐:综述与展望
专知会员服务
25+阅读 · 2025年6月12日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
1+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
5+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
8+阅读 · 4月15日
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
相关资讯
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员