如何轻松入门国产开源数据库StarRocks,开启数仓新利器之旅?
- 内容介绍
- 文章标签
- 相关推荐
本文共计5162个文字,预计阅读时间需要21分钟。
本篇重点讲述如何将数据导入到StarRocks的几种方式,并通过一个flink-connector-starrocks的简单示例代码了解其导入过程。同时,学习数组类类型的使用、分布式实现本地Join,最后抛出外部表的使用。
本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门 数据导入 总览 概述数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。StarRocks提供了多种导入方式,用户可以根据数据量大小、导入频率等要求选择最适合自己业务需求的导入方式。
- 离线数据导入,如果数据源是Hive/HDFS,推荐采用Broker Load导入, 如果数据表很多导入比较麻烦可以考虑使用Hive外表直连查询,性能会比Broker load导入效果差,但是可以避免数据搬迁,如果单表的数据量特别大,或者需要做全局数据字典来精确去重可以考虑Spark Load导入。
- 实时数据导入,日志数据和业务数据库的binlog同步到Kafka以后,优先推荐通过Routine load 导入StarRocks,如果导入过程中有复杂的多表关联和ETL预处理可以使用Flink处理以后用stream load写入StarRocks,我们有标准的Flink-connector可以方便Flink任务使用。
- 程序写入StarRocks,推荐使用Stream Load,可以参考例子中有Java/Python的demo。
本文共计5162个文字,预计阅读时间需要21分钟。
本篇重点讲述如何将数据导入到StarRocks的几种方式,并通过一个flink-connector-starrocks的简单示例代码了解其导入过程。同时,学习数组类类型的使用、分布式实现本地Join,最后抛出外部表的使用。
本篇重点讲述导入数据到StarRocks几种方式,也通过一个flink-connector-starrocks的简单示例代码了解其导入过程,进而学习数组类型的使用、分布式实现本地Join的使用,最后抛出外部表的使用大门 数据导入 总览 概述数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。StarRocks提供了多种导入方式,用户可以根据数据量大小、导入频率等要求选择最适合自己业务需求的导入方式。
- 离线数据导入,如果数据源是Hive/HDFS,推荐采用Broker Load导入, 如果数据表很多导入比较麻烦可以考虑使用Hive外表直连查询,性能会比Broker load导入效果差,但是可以避免数据搬迁,如果单表的数据量特别大,或者需要做全局数据字典来精确去重可以考虑Spark Load导入。
- 实时数据导入,日志数据和业务数据库的binlog同步到Kafka以后,优先推荐通过Routine load 导入StarRocks,如果导入过程中有复杂的多表关联和ETL预处理可以使用Flink处理以后用stream load写入StarRocks,我们有标准的Flink-connector可以方便Flink任务使用。
- 程序写入StarRocks,推荐使用Stream Load,可以参考例子中有Java/Python的demo。

