MRS-Hudi在构建数据湖时有哪些典型应用场景?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2941个文字,预计阅读时间需要12分钟。
一、传统数据湖存在的问题与挑战传统数据湖在存储和解决数据管理问题时面临以下挑战:
1. 数据存储效率低
2.数据处理速度慢
3.数据安全性和隐私保护不足
4.数据集成困难
二、传统数据湖解决方案
针对上述问题,以下是一些常见的解决方案:1. 使用Hive构建T+1级别的数据仓库,实现数据的高效存储和快速查询。
2.利用HDFS存储海量数据,实现数据的水平扩展和水平扩展。
3.通过Hive实现元数据的管理和数据操作,提高数据管理的效率。
一、传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:
问题一:不支持事务
由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务。但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题。
问题二:数据更新效率低
业务系统库的数据,除流水表类的数据都是新增数据外,还有很多状态类数据表需要更新操作(例如:账户余额表,客户状态表,设备状态表等),而传统大数据方案无法满足增量更新,常采用拉链方式,先进行join操作再进行insert overwrite操作,通过覆盖写的方式完成更新操作,该操作往往需要T+1的批处理模式 ,从而导致端到端数据时延T+1,存在效率低、成本高等问题。
本文共计2941个文字,预计阅读时间需要12分钟。
一、传统数据湖存在的问题与挑战传统数据湖在存储和解决数据管理问题时面临以下挑战:
1. 数据存储效率低
2.数据处理速度慢
3.数据安全性和隐私保护不足
4.数据集成困难
二、传统数据湖解决方案
针对上述问题,以下是一些常见的解决方案:1. 使用Hive构建T+1级别的数据仓库,实现数据的高效存储和快速查询。
2.利用HDFS存储海量数据,实现数据的水平扩展和水平扩展。
3.通过Hive实现元数据的管理和数据操作,提高数据管理的效率。
一、传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:
问题一:不支持事务
由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务。但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题。
问题二:数据更新效率低
业务系统库的数据,除流水表类的数据都是新增数据外,还有很多状态类数据表需要更新操作(例如:账户余额表,客户状态表,设备状态表等),而传统大数据方案无法满足增量更新,常采用拉链方式,先进行join操作再进行insert overwrite操作,通过覆盖写的方式完成更新操作,该操作往往需要T+1的批处理模式 ,从而导致端到端数据时延T+1,存在效率低、成本高等问题。

