字节跳动Data Catalog架构升级如何提升业务系统性能？

2026-05-05 16:270阅读0评论SEO问题

内容介绍
文章标签
相关推荐

本文共计3644个文字，预计阅读时间需要15分钟。

DataCatalog系统的存储层在2021年经历了大规模重构，新版基于Apache Atlas实现。迁移过程中，我们遇到了诸多性能问题。以下以DataCatalog系统升级为例，探讨与行业大家的经验交流。

字节的 DataCatalog 系统，在 2021 年进行过大规模重构，新版本的存储层基于 Apache Atlas 实现。迁移过程中，我们遇到了比较多的性能问题。本文以 Data Catalog 系统升级过程为例，与大家讨论业务系统性能优化方面的思考，也会介绍我们关于 Apache Atlas 相关的性能优化。背景

字节跳动 Data Catalog 产品早期，是基于 LinkedIn Wherehows 进行二次改造，产品早期只支持 Hive 一种数据源。后续为了支持业务发展，做了很多修修补补的工作，系统的可维护性和扩展性变得不可忍受。比如为了支持数据血缘能力，引入了字节内部的图数据库 veGraph，写入时，需要业务层处理 MySQL、ElasticSearch 和 veGraph 三种存储，模型也需要同时理解关系型和图两种。更多的背景可以参照之前的文章。

新版本保留了原有版本全量的产品能力，将存储层替换成了 Apache Atlas。

阅读全文