华为云MRS如何利用Hudi和HetuEngine打造高效实时数据湖?

2026-05-17 01:140阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2023个文字,预计阅读时间需要9分钟。

华为云MRS如何利用Hudi和HetuEngine打造高效实时数据湖?

数据湖与实时数据湖是什么?

各行各业企业都在构建企业级数据湖,将多种格式的数据源汇聚到大数据平台,通过严格的数据权限和资源管控,将数据和计算能力开放给各类用户。

数据湖与实时数据湖是什么?

各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT时代,支撑各个企业实时分析业务的数据湖新目标。

华为MRS实时数据湖方案介绍

  1. 生产库数据通过CDC工具(debezium)实时录入到MRS集群中Kafka的指定topic里;
  2. 在MRS集群启动一个SparkStreaming任务,实时读取Kafka指定topic里的数据;
  3. 同时该SparkStreaming任务将读取到的数据进行解析处理并写入到一张hudi表中;
  4. 写入hudi表的同时可以指定该数据也写入hive表;
  5. 通过MRS提供的交互式查询引擎HetuEngine对数据进行快速的交互式查询。
阅读全文

本文共计2023个文字,预计阅读时间需要9分钟。

华为云MRS如何利用Hudi和HetuEngine打造高效实时数据湖?

数据湖与实时数据湖是什么?

各行各业企业都在构建企业级数据湖,将多种格式的数据源汇聚到大数据平台,通过严格的数据权限和资源管控,将数据和计算能力开放给各类用户。

数据湖与实时数据湖是什么?

各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT时代,支撑各个企业实时分析业务的数据湖新目标。

华为MRS实时数据湖方案介绍

  1. 生产库数据通过CDC工具(debezium)实时录入到MRS集群中Kafka的指定topic里;
  2. 在MRS集群启动一个SparkStreaming任务,实时读取Kafka指定topic里的数据;
  3. 同时该SparkStreaming任务将读取到的数据进行解析处理并写入到一张hudi表中;
  4. 写入hudi表的同时可以指定该数据也写入hive表;
  5. 通过MRS提供的交互式查询引擎HetuEngine对数据进行快速的交互式查询。
阅读全文