如何解决字节跳动数据SLA治理难题?一文揭秘其对齐、保障与管理之道。
- 内容介绍
- 文章标签
- 相关推荐
本文共计4993个文字,预计阅读时间需要20分钟。
基于字节跳动运动分布式的概念,数据平台数据处理团队自主研发了SLA保障平台。该平台已在字节跳动内部广泛应用,并支持了大部分数据团队的SLA管理需求,每天保障的SLA链路数量过千。
基于字节跳动分布式治理的理念,数据平台数据治理团队自研了SLA保障平台,目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SLA难对齐、难保障、难管理的问题。
背景介绍SLA(Service Level Agreement):服务级别协议,对互联网公司来说是网站服务可用性的保证。数据SLA,即数据可用性保证,一般以数据产出时间作为SLA。
在海量数据任务开发场景中,因业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、跨团队节点依赖多,因此,在实际开发运维过程中,任务负责人为保证自身数据准时产出,会遇到如下困难:
-
沟通成本高:任务负责人尝试与上游任务负责人约定SLA,但由于上游任务数多(可至上千个),且跨越多个团队,沟通成本非常高
-
权责不清晰:由于链路复杂,如何制定SLA?谁来负责保障SLA?
-
运维压力大:无法及时发现上游任务延迟,导致下游任务负责人承担绝大部分运维压力,且运维效果较差,往往发现延迟已经错过了补救的时间。
为解决上述问题,字节跳动数据平台通过自研的SLA保障平台,规范并推进各业务团队进行任务链路治理,有效保障数据的SLA,数据SLA达标率达到99.1%。
本文共计4993个文字,预计阅读时间需要20分钟。
基于字节跳动运动分布式的概念,数据平台数据处理团队自主研发了SLA保障平台。该平台已在字节跳动内部广泛应用,并支持了大部分数据团队的SLA管理需求,每天保障的SLA链路数量过千。
基于字节跳动分布式治理的理念,数据平台数据治理团队自研了SLA保障平台,目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SLA难对齐、难保障、难管理的问题。
背景介绍SLA(Service Level Agreement):服务级别协议,对互联网公司来说是网站服务可用性的保证。数据SLA,即数据可用性保证,一般以数据产出时间作为SLA。
在海量数据任务开发场景中,因业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、跨团队节点依赖多,因此,在实际开发运维过程中,任务负责人为保证自身数据准时产出,会遇到如下困难:
-
沟通成本高:任务负责人尝试与上游任务负责人约定SLA,但由于上游任务数多(可至上千个),且跨越多个团队,沟通成本非常高
-
权责不清晰:由于链路复杂,如何制定SLA?谁来负责保障SLA?
-
运维压力大:无法及时发现上游任务延迟,导致下游任务负责人承担绝大部分运维压力,且运维效果较差,往往发现延迟已经错过了补救的时间。
为解决上述问题,字节跳动数据平台通过自研的SLA保障平台,规范并推进各业务团队进行任务链路治理,有效保障数据的SLA,数据SLA达标率达到99.1%。

