With the rapid rise of intelligent data services, modern enterprises increasingly require efficient, multimodal, and cost-effective data analytics infrastructures. However, in ByteDance's production environments, existing systems fall short due to limitations such as I/O-inefficient multimodal storage, inflexible query optimization (e.g., failing to optimize multimodal access patterns), and performance degradation caused by resource disaggregation (e.g., loss of data locality in remote storage). To address these challenges, we introduce ByteHouse (https://bytehouse.cloud), a cloud-native data warehouse designed for real-time multimodal data analytics. The storage layer integrates a unified table engine that provides a two-tier logical abstraction and physically consistent layout, SSD-backed cluster-scale cache (CrossCache) that supports shared caching across compute nodes, and virtual file system (NexusFS) that enable efficient local access on compute nodes. The compute layer supports analytical, batch, and incremental execution modes, with tailored optimizations for hybrid queries (e.g., runtime filtering over tiered vector indexes). The control layer coordinates global metadata and transactions, and features an effective optimizer enhanced by historical execution traces and AI-assisted plan selection. Evaluations on internal and standard workloads show that ByteHouse achieves significant efficiency improvement over existing systems.


翻译:随着智能数据服务的快速崛起,现代企业日益需要高效、多模态且成本低廉的数据分析基础设施。然而,在字节跳动的生产环境中,现有系统存在诸多不足,例如多模态存储的I/O效率低下、查询优化不够灵活(如未能针对多模态访问模式进行优化),以及资源解耦导致的性能退化(如远程存储中数据局部性的丧失)。为应对这些挑战,我们提出了ByteHouse(https://bytehouse.cloud),一种专为实时多模态数据分析设计的云原生数据仓库。其存储层集成了统一表引擎,提供两层逻辑抽象与物理一致布局;支持固态硬盘驱动的集群级缓存(CrossCache),实现计算节点间的共享缓存;以及虚拟文件系统(NexusFS),支持计算节点上的高效本地访问。计算层支持分析、批处理和增量执行模式,并对混合查询(如基于层级向量索引的运行时过滤)进行了定制优化。控制层协调全局元数据与事务,并具备一个由历史执行轨迹与人工智能辅助计划选择增强的高效优化器。在内部与标准工作负载上的评估表明,ByteHouse相比现有系统实现了显著的效率提升。

0
下载
关闭预览

相关内容

字节跳动自研万亿级图数据库ByteGraph及其应用与挑战
专知会员服务
32+阅读 · 2022年6月1日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
《数据中心白皮书(2022年)》
专知会员服务
89+阅读 · 2022年4月24日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
《企业物联网平台技术白皮书(2022)》31页PDF,阿里云
专知会员服务
24+阅读 · 2022年3月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
《2021—2022中国大数据产业发展报告》
专知
13+阅读 · 2022年1月23日
【供应链】用好大数据,建设数字化供应链
产业智能官
15+阅读 · 2020年7月21日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
0+阅读 · 55分钟前
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
3+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
4+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
12+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关VIP内容
字节跳动自研万亿级图数据库ByteGraph及其应用与挑战
专知会员服务
32+阅读 · 2022年6月1日
实时数据湖在字节跳动的实践
专知会员服务
30+阅读 · 2022年5月28日
《数据中心白皮书(2022年)》
专知会员服务
89+阅读 · 2022年4月24日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
《企业物联网平台技术白皮书(2022)》31页PDF,阿里云
专知会员服务
24+阅读 · 2022年3月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员