如何通过dw连接数据库实现高效数据处理及优化策略?
- 内容介绍
- 文章标签
- 相关推荐
小聊:为啥DW要跟数据库打交道?
说实话,数据仓库本身不产生数据。
它是个“大碗”,专门装各种业务系统吐出来的料。
所以想让它吃得香,必须先把锅子和灶台连起来,开倒车。。
可能.…. 哈哈,这事儿听起来高大上,其实就是把散落在各处的表格搬进统一的大仓库。
一、 抽取——先把原始数据挑出来
咱们先说抽取,这一步像是去菜市场挑菜。
那必须的! 源头可以是关系型数据库,也可以是NoSQL,甚至是CSV文件。
用SQL写点WHERE条件,或者调API,都能把需要的那块儿挑出来,观感极佳。。
别忘了抽取的时候尽量只要必要字段,省得后面搬运费劲,被割韭菜了。。
二、 清洗与转换——把原材料变成可口菜肴
官宣。 抽出来的数据往往有脏东西,缺失值、重复行、格式不统一。
就这? 这时候就得动手清洗,像去皮切块一样,把噪声剔除。
再来点转换,比如日期格式统一、数值归一化、维度层级拆分。
如果业务需要,还可以做衍生字段,比如算出利润率之类的。
三、 加载——把“菜”装进数据仓库的大锅
加载分全量和增量,两种方式各有适用场景。
全量适合第一次建仓或者大改过;增量则是日常的“快递”式更新,有啥用呢?。
这里强烈推荐批量提交,而不是一条条插入,性能提升好几倍呢。
再说一个,使用分区表或分区加载,可以让大表也不至于卡死。
小聊:为啥DW要跟数据库打交道?
说实话,数据仓库本身不产生数据。
它是个“大碗”,专门装各种业务系统吐出来的料。
所以想让它吃得香,必须先把锅子和灶台连起来,开倒车。。
可能.…. 哈哈,这事儿听起来高大上,其实就是把散落在各处的表格搬进统一的大仓库。
一、 抽取——先把原始数据挑出来
咱们先说抽取,这一步像是去菜市场挑菜。
那必须的! 源头可以是关系型数据库,也可以是NoSQL,甚至是CSV文件。
用SQL写点WHERE条件,或者调API,都能把需要的那块儿挑出来,观感极佳。。
别忘了抽取的时候尽量只要必要字段,省得后面搬运费劲,被割韭菜了。。
二、 清洗与转换——把原材料变成可口菜肴
官宣。 抽出来的数据往往有脏东西,缺失值、重复行、格式不统一。
就这? 这时候就得动手清洗,像去皮切块一样,把噪声剔除。
再来点转换,比如日期格式统一、数值归一化、维度层级拆分。
如果业务需要,还可以做衍生字段,比如算出利润率之类的。
三、 加载——把“菜”装进数据仓库的大锅
加载分全量和增量,两种方式各有适用场景。
全量适合第一次建仓或者大改过;增量则是日常的“快递”式更新,有啥用呢?。
这里强烈推荐批量提交,而不是一条条插入,性能提升好几倍呢。
再说一个,使用分区表或分区加载,可以让大表也不至于卡死。

