AvalancheBench: Evaluating Enterprise Data Agents Through Latent World Recovery - 专知论文

会员服务 ·

0

Agent · 潜在 · 可理解性 · 得分 · 真实值 ·

AvalancheBench: Evaluating Enterprise Data Agents Through Latent World Recovery

翻译：暂无翻译

Darek Kleczek,Fuheng Zhao,Alexander W. Lee,Julien Tissier,Pawel Liskowski,Ugur Cetintemel,Anupam Datta

We introduce AvalancheBench, a benchmark for evaluating enterprise data agents through \emph{latent world recovery}. AvalancheBench improves on existing benchmarks in three ways. First, it evaluates analytical understanding rather than pipeline completion: systems are scored on whether they recover the segments, drivers, temporal events, and relationships that explain the data, not merely on whether they execute a workflow or produce a plausible report. Second, it provides ground truth for goal-driven analytics by generating observations from a known latent world, enabling partial credit for incomplete but valid recoveries. Third, it exposes how early analytical mistakes propagate into later conclusions: missed segments, merged events, or wrong attributions can lead to systematically wrong recommendations. In this sense, AvalancheBench complements real-data benchmarks by providing a controlled setting for diagnosing whether agents recover the analytical structure behind enterprise data. On a first e-commerce use case, the strongest configuration of a leading coding agent recovers only 26\% of the rubric, with failures concentrated in generic customer segmentations and merged temporal events.

翻译：暂无翻译

0

相关内容

Agent

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

腾讯制造业数字化转型洞察报告：[以人为中心]的连接、数据与决策（附报告），83页pdf

腾讯制造业数字化转型洞察报告：[以人为中心]的连接、数据与决策（附报告），83页pdf

专知会员服务

27+阅读 · 2023年1月7日

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

专知会员服务

24+阅读 · 2022年11月11日

《数据安全治理自动化技术框架》白皮书发布，47页pdf

《数据安全治理自动化技术框架》白皮书发布，47页pdf

专知会员服务

61+阅读 · 2022年9月9日

国家信息中心等《数据安全复合治理与实践白皮书》，67页pdf

国家信息中心等《数据安全复合治理与实践白皮书》，67页pdf

专知会员服务

67+阅读 · 2021年12月27日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

专知会员服务

33+阅读 · 2019年11月7日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk

10+阅读 · 2019年12月26日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

报告 | 华为、IDC白皮书：数字平台破局企业数字化转型（附PDF下载）

报告 | 华为、IDC白皮书：数字平台破局企业数字化转型（附PDF下载）

走向智能论坛

51+阅读 · 2019年4月12日

Network Embedding 指南

Network Embedding 指南

专知

22+阅读 · 2018年8月13日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

数据挖掘入门与实战

18+阅读 · 2018年4月20日

终于！Supervise.ly 发布人像分割数据集啦（免费开源）

终于！Supervise.ly 发布人像分割数据集啦（免费开源）

AI研习社

11+阅读 · 2018年4月10日

Palantir的新专利曝光：挖掘和整合全世界的数据

Palantir的新专利曝光：挖掘和整合全世界的数据

炼数成金订阅号

19+阅读 · 2018年3月30日

揭秘最神秘的大数据公司 Palantir

揭秘最神秘的大数据公司 Palantir

数据库开发

21+阅读 · 2017年11月13日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

43+阅读 · 2014年12月31日

基于复杂网络的商务大数据聚类与关联应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据背景下的商业模式创新机制研究

国家自然科学基金

5+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

Stealthy World Model Manipulation via Data Poisoning

Arxiv

0+阅读 · 6月17日

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

Arxiv

0+阅读 · 6月17日

Towards Anomaly Detection on Relational Data

Arxiv

0+阅读 · 6月17日

EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

Arxiv

0+阅读 · 6月11日

RUBICON: Agentic AI for Messy Enterprise Data

Arxiv

0+阅读 · 6月10日

STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

Arxiv

0+阅读 · 6月3日

Redbench: Workload Synthesis From Cloud Traces

Arxiv

0+阅读 · 5月28日

The Evolution of Digital Twins from Reactive to Agentic Systems

Arxiv

0+阅读 · 5月25日

A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance

Arxiv

0+阅读 · 5月7日

Revocation-Ready CP-ABE Key Management for Blockchain-Based IoT Data Sharing

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

0+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

0+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

腾讯制造业数字化转型洞察报告：[以人为中心]的连接、数据与决策（附报告），83页pdf

腾讯制造业数字化转型洞察报告：[以人为中心]的连接、数据与决策（附报告），83页pdf

专知会员服务

27+阅读 · 2023年1月7日

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

专知会员服务

24+阅读 · 2022年11月11日

《数据安全治理自动化技术框架》白皮书发布，47页pdf

《数据安全治理自动化技术框架》白皮书发布，47页pdf

专知会员服务

61+阅读 · 2022年9月9日

国家信息中心等《数据安全复合治理与实践白皮书》，67页pdf

国家信息中心等《数据安全复合治理与实践白皮书》，67页pdf

专知会员服务

67+阅读 · 2021年12月27日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

专知会员服务

33+阅读 · 2019年11月7日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk "各厂最新技术应用分享" 文章合集：风控篇

DataFunTalk

10+阅读 · 2019年12月26日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

报告 | 华为、IDC白皮书：数字平台破局企业数字化转型（附PDF下载）

报告 | 华为、IDC白皮书：数字平台破局企业数字化转型（附PDF下载）

走向智能论坛

51+阅读 · 2019年4月12日

Network Embedding 指南

Network Embedding 指南

专知

22+阅读 · 2018年8月13日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

数据挖掘入门与实战

18+阅读 · 2018年4月20日

终于！Supervise.ly 发布人像分割数据集啦（免费开源）

终于！Supervise.ly 发布人像分割数据集啦（免费开源）

AI研习社

11+阅读 · 2018年4月10日

Palantir的新专利曝光：挖掘和整合全世界的数据

Palantir的新专利曝光：挖掘和整合全世界的数据

炼数成金订阅号

19+阅读 · 2018年3月30日

揭秘最神秘的大数据公司 Palantir

揭秘最神秘的大数据公司 Palantir

数据库开发

21+阅读 · 2017年11月13日

相关论文

Stealthy World Model Manipulation via Data Poisoning

Arxiv

0+阅读 · 6月17日

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

Arxiv

0+阅读 · 6月17日

Towards Anomaly Detection on Relational Data

Arxiv

0+阅读 · 6月17日

EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis

Arxiv

0+阅读 · 6月11日

RUBICON: Agentic AI for Messy Enterprise Data

Arxiv

0+阅读 · 6月10日

STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

Arxiv

0+阅读 · 6月3日

Redbench: Workload Synthesis From Cloud Traces

Arxiv

0+阅读 · 5月28日

The Evolution of Digital Twins from Reactive to Agentic Systems

Arxiv

0+阅读 · 5月25日

A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance

Arxiv

0+阅读 · 5月7日

Revocation-Ready CP-ABE Key Management for Blockchain-Based IoT Data Sharing

Arxiv

0+阅读 · 5月5日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

43+阅读 · 2014年12月31日

基于复杂网络的商务大数据聚类与关联应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据背景下的商业模式创新机制研究

国家自然科学基金

5+阅读 · 2014年12月31日

大数据商业模式、产业链治理及公共政策研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员