LLM-driven web agents operating through continuous inference loops -- repeatedly querying a model to evaluate browser state and select actions -- exhibit a fundamental scalability constraint for repetitive tasks. We characterize this as the Rerun Crisis: the linear growth of token expenditure and API latency relative to execution frequency. For a 5-step workflow over 500 iterations, a continuous agent incurs approximately 150.00 USD in inference costs; even with aggressive caching, this remains near 15.00 USD. We propose a Compile-and-Execute architecture that decouples LLM reasoning from browser execution, reducing per-workflow inference cost to under 0.10 USD. A one-shot LLM invocation processes a token-efficient semantic representation from a DOM Sanitization Module (DSM) and emits a deterministic JSON workflow blueprint. A lightweight runtime then drives the browser without further model queries. We formalize this cost reduction from O(M x N) to amortized O(1) inference scaling, where M is the number of reruns and N is the sequential actions. Empirical evaluation across data extraction, form filling, and fingerprinting tasks yields zero-shot compilation success rates of 80-94%. Crucially, the modularity of the JSON intermediate representation allows minimal Human-in-the-Loop (HITL) patching to elevate execution reliability to near-100%. At per-compilation costs between 0.002 USD and 0.092 USD across five frontier models, these results establish deterministic compilation as a paradigm enabling economically viable automation at scales previously infeasible under continuous architectures.


翻译:通过持续推理循环(反复查询模型评估浏览器状态并选择动作)运行的大语言模型驱动网页智能体,在重复性任务中暴露出基本可扩展性约束。我们将此表征为“重运行危机”:令牌消耗与API延迟随执行频率线性增长。对于500次迭代的5步工作流,持续智能体推理成本约为150.00美元;即使采用激进缓存策略,成本仍接近15.00美元。我们提出“编译-执行”架构,将大语言模型推理与浏览器执行解耦,将单工作流推理成本降至0.10美元以下。单次大语言模型调用处理来自DOM清洗模块的令牌高效语义表示,并输出确定性JSON工作流蓝图。轻量级运行时随后无需进一步模型查询即可驱动浏览器。我们将此成本降低形式化为从O(M×N)到摊销O(1)的推理缩放(M为重运行次数,N为顺序动作数)。在数据提取、表单填充和指纹识别任务中的实证评估显示,零样本编译成功率达80-94%。关键的是,JSON中间表示的模块化特性允许最小化人机协同修补将执行可靠性提升至近100%。在五种前沿模型上单次编译成本介于0.002至0.092美元之间,这些结果确立了确定性编译作为在持续架构下先前不可行的规模上实现经济可行自动化的范式。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员