华为云MRS如何利用Hudi和HetuEngine打造高效实时数据湖?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2023个文字,预计阅读时间需要9分钟。
数据湖与实时数据湖是什么?
各行各业企业都在构建企业级数据湖,将多种格式的数据源汇聚到大数据平台,通过严格的数据权限和资源管控,将数据和计算能力开放给各类用户。
数据湖与实时数据湖是什么?
各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT时代,支撑各个企业实时分析业务的数据湖新目标。
华为MRS实时数据湖方案介绍
- 生产库数据通过CDC工具(debezium)实时录入到MRS集群中Kafka的指定topic里;
- 在MRS集群启动一个SparkStreaming任务,实时读取Kafka指定topic里的数据;
- 同时该SparkStreaming任务将读取到的数据进行解析处理并写入到一张hudi表中;
- 写入hudi表的同时可以指定该数据也写入hive表;
- 通过MRS提供的交互式查询引擎HetuEngine对数据进行快速的交互式查询。
本文共计2023个文字,预计阅读时间需要9分钟。
数据湖与实时数据湖是什么?
各行各业企业都在构建企业级数据湖,将多种格式的数据源汇聚到大数据平台,通过严格的数据权限和资源管控,将数据和计算能力开放给各类用户。
数据湖与实时数据湖是什么?
各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT时代,支撑各个企业实时分析业务的数据湖新目标。
华为MRS实时数据湖方案介绍
- 生产库数据通过CDC工具(debezium)实时录入到MRS集群中Kafka的指定topic里;
- 在MRS集群启动一个SparkStreaming任务,实时读取Kafka指定topic里的数据;
- 同时该SparkStreaming任务将读取到的数据进行解析处理并写入到一张hudi表中;
- 写入hudi表的同时可以指定该数据也写入hive表;
- 通过MRS提供的交互式查询引擎HetuEngine对数据进行快速的交互式查询。

