hive入门放弃系列(六):如何掌握常用文件存储格式?

2026-05-25 19:130阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计1197个文字,预计阅读时间需要5分钟。

hive入门放弃系列(六):如何掌握常用文件存储格式?

Hive支持多种存储格式,其中常用的是TextFile、ORC和Parquet。在我们单位,最常用的是Hive默认的文件存储格式TextFile。除了TextFile,其他格式的表不能直接从本地文件导入。

hive 存储格式有很多,但常用的一般是 TextFile、ORC、Parquet 格式,在我们单位最多的也是这三种

hive 默认的文件存储格式是 TextFile。

除 TextFile 外的其他格式的表不能直接从本地文件导入数据,要先导入到 TextFile 格式的表中,再从表中用 insert 导入到其他格式的表中。

一、TextFile

TextFile 是行式存储。

建表时无需指定,一般默认这种格式,以这种格式存储的文件,可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割,建表时需要指定分隔符。

不会对文件进行压缩,因此加载数据的时候会比较快,因为不需要解压缩;但也因此更占用存储空间。

hive入门放弃系列(六):如何掌握常用文件存储格式?

二、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC,文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩,默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高,Snappy 效率比 Zlib 高。

阅读全文

本文共计1197个文字,预计阅读时间需要5分钟。

hive入门放弃系列(六):如何掌握常用文件存储格式?

Hive支持多种存储格式,其中常用的是TextFile、ORC和Parquet。在我们单位,最常用的是Hive默认的文件存储格式TextFile。除了TextFile,其他格式的表不能直接从本地文件导入。

hive 存储格式有很多,但常用的一般是 TextFile、ORC、Parquet 格式,在我们单位最多的也是这三种

hive 默认的文件存储格式是 TextFile。

除 TextFile 外的其他格式的表不能直接从本地文件导入数据,要先导入到 TextFile 格式的表中,再从表中用 insert 导入到其他格式的表中。

一、TextFile

TextFile 是行式存储。

建表时无需指定,一般默认这种格式,以这种格式存储的文件,可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割,建表时需要指定分隔符。

不会对文件进行压缩,因此加载数据的时候会比较快,因为不需要解压缩;但也因此更占用存储空间。

hive入门放弃系列(六):如何掌握常用文件存储格式?

二、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC,文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩,默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高,Snappy 效率比 Zlib 高。

阅读全文