如何利用 Apache Hudi 构建支持增量与无限回放的数据流式OLAP平台?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2393个文字,预计阅读时间需要10分钟。
1. 摘要:在本博客中,我们将探讨如何利用Hudi在构建数据平台时,发挥其两个最令人难以置信的信任能力。首先,Hudi能显著减少每30分钟处理一次数据的时间消耗,其次,它能在我们的组织架构内构建每小时间隔的OLAP平台和事件处理。
1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。
- 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台
- 事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题)
- 具有部分记录更新的自定义 Hudi Payload 类
对于大多数业务需要手动干预以通过查看 KPI 和数据趋势来决定下一组操作用例以及其他不太实时的用例,我们需要具有成本效益和高性能的近实时系统。
但是我们在数据湖中获得的数据通常以 D -1 的每日批处理粒度出现,即使我们每天不止一次地运行这些日常批处理数据处理系统以获取当前 D 的最新数据,这些批处理系统的固有局限性也无助于我们解决近实时业务用例。
在将批处理数据摄取到我们的数据湖时,我们支持 S3 的数据集在每日更新日期分区上进行分区。即使我们每天多次运行这些批处理系统,我们从上游 Kafka 或 RDBMS 应用程序数据库中提取的最新批处理也会附加到 S3 数据集中当前日期的分区中。
当下游系统想要从我们的 S3 数据集中获取这些最新记录时,它需要重新处理当天的所有记录,因为下游进程无法在不扫描整个数据分区的情况下从增量记录中找出已处理的记录。
本文共计2393个文字,预计阅读时间需要10分钟。
1. 摘要:在本博客中,我们将探讨如何利用Hudi在构建数据平台时,发挥其两个最令人难以置信的信任能力。首先,Hudi能显著减少每30分钟处理一次数据的时间消耗,其次,它能在我们的组织架构内构建每小时间隔的OLAP平台和事件处理。
1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。
- 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台
- 事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题)
- 具有部分记录更新的自定义 Hudi Payload 类
对于大多数业务需要手动干预以通过查看 KPI 和数据趋势来决定下一组操作用例以及其他不太实时的用例,我们需要具有成本效益和高性能的近实时系统。
但是我们在数据湖中获得的数据通常以 D -1 的每日批处理粒度出现,即使我们每天不止一次地运行这些日常批处理数据处理系统以获取当前 D 的最新数据,这些批处理系统的固有局限性也无助于我们解决近实时业务用例。
在将批处理数据摄取到我们的数据湖时,我们支持 S3 的数据集在每日更新日期分区上进行分区。即使我们每天多次运行这些批处理系统,我们从上游 Kafka 或 RDBMS 应用程序数据库中提取的最新批处理也会附加到 S3 数据集中当前日期的分区中。
当下游系统想要从我们的 S3 数据集中获取这些最新记录时,它需要重新处理当天的所有记录,因为下游进程无法在不扫描整个数据分区的情况下从增量记录中找出已处理的记录。

