The fastest-growing data in production today is unstructured text: agent traces, chat logs, reasoning chains, model outputs. People want to analyze it, and the questions worth asking ("show me where the agent got confused") cannot be answered by SQL alone, since text is not queryable without a model in the query path. The natural place this analysis is happening is the new class of AI applications (Claude Code, Cursor, Claude Desktop, in-browser agents) that run client-side and host both a human user and an LLM agent in the same process. These applications increasingly want to work with data, but the lakehouse read path has been hard to use from a JS runtime: Spark, Trino, and managed warehouses do not fit there. To build this new kind of AI data application, three properties of the engine become first-order: a JS-native distribution that drops into the runtime the application already runs in, a bundle small enough to ship inside a cold tab or per-turn agent sandbox, and a way to interleave analytic operators with model-based interpretation of text. We present Hyperparam, three open-source JavaScript libraries (Hyparquet, Squirreling, Icebird) totaling under 70 KB, that read Parquet and Apache Iceberg directly from object storage and meet the third property with per-cell, async-native SQL execution, so expensive cells fire only when downstream operators demand them. Squirreling runs LLM-shaped async UDFs over 300x faster than DuckDB-WASM on filter-bounded queries (and 192x on sort-bounded queries) and completes a ten-task agent analyst suite at two-thirds lower cost. We argue that data engineering as a discipline needs to update for the AI-native client applications now in production and the agents that work alongside their users.


翻译:当前生产环境中增长最快的数据是非结构化文本:智能体轨迹、聊天记录、推理链、模型输出。人们希望分析这些数据,而有价值的问题(例如“显示智能体在何处出现混淆”)无法仅通过SQL回答,因为若查询路径中没有模型,文本便无法被检索。这类分析自然发生在新型AI应用程序中(如Claude Code、Cursor、Claude Desktop、浏览器内智能体),这些程序在客户端运行,并在同一进程中同时容纳人类用户和大语言模型智能体。此类应用程序越来越需要处理数据,但从JavaScript运行时使用数据湖读取路径却一直困难重重:Spark、Trino和托管数据仓库在此场景下并不适用。为了构建这种新型AI数据应用,引擎的三个特性成为首要考虑:可嵌入应用程序已有运行时的JS原生分发版本;足够小、能够装入冷标签页或每轮智能体沙箱的打包体积;以及将分析算子与基于模型的文本解释交织的能力。我们提出Hyperparam,这是一套三个开源JavaScript库(Hyparquet、Squirreling、Icebird),总大小不到70 KB,可直接从对象存储读取Parquet和Apache Iceberg,并通过支持逐单元、异步原生的SQL执行满足第三个特性——代价高昂的单元仅在下游算子请求时才触发执行。在过滤受限查询上,Squirreling运行LLM形态的异步UDF比DuckDB-WASM快300倍以上(在排序受限查询上快192倍),并以三分之二的更低成本完成包含十个任务的智能体分析师套件。我们认为,数据工程这门学科需要为现已投入生产的AI原生客户端应用程序及其与用户协同工作的智能体进行更新。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
Google《AI智能体企业应用手册报告》,46页pdf
专知会员服务
49+阅读 · 2025年12月29日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
Arxiv
24+阅读 · 2024年2月23日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员