Hive数据压缩的几种方案

大数据研习社 2021-05-19

1573

长按二维码关注

大数据领域必关注的公众号

By大数据研习社

概要：Hive中使用数据压缩，可以减少存储磁盘空间，降低单节点的磁盘IO。由于压缩后的数据占用的带宽更少，因此可以加快数据在Hadoop集群流动的速度。

关键词：Hive、数据压缩、Snappy、Lzo

Part 1

Hive数据压缩的几种方案

1.1 数据压缩优点

减少存储磁盘空间，降低单节点的磁盘IO。由于压缩后的数据占用的带宽更少，因此可以加快数据在Hadoop集群流动的速度。

1.2 数据压缩缺点

Hive做大数据分析运行过程中，需要花费额外的时间/CPU做压缩和解压缩计算。

1.3 几种数据压缩方案

几种压缩方案总结：

1）lzo和snappy的压缩率和压缩速度相对比较均衡。

2）压缩文件是否能分割的也比较重要,MapReduce 需要将大文件分割成多个分片，每个map处理一个分片数据，从而并行进行处理。

3）虽然GZip与Snappy文件不可分，但也有替代的方案。可以控制输出文件个数和大小。

1.4 数据压缩运行过程分析

1.5 Hive中数据压缩配置与测试

1.查看集群支持的压缩算法

使用以下命令，可以查看是否有相应压缩算法的库；如果显示为false，则需要额外安装。

bin/hadoop checknative -a

PS：Hadoop 2.X版本已经集成了snappy、lz4、bzip2等压缩算法的编/解码器，会自动调用对应的本地库，而CentOS 7中自带snappy依赖库，故无需安装安装snappy依赖

如果报错：

openssl: false Cannot load libcrypto.so

原因：

提示不能正确加载 libcrypto.so，因为缺少 ssl lib包

解决：

sudo yum -y install openssl-devel

2.开启map节点输出压缩

Hive中开启Map阶段输出压缩，可以减少在Hive中MR Job的Mapper和Reducer之间的网络I/O。

1）开启Hive中MR中间文件压缩：

hive> set hive.exec.compress.intermediate=true;

2）开启Hadoop的MapReduce任务中Map输出压缩功能：

hive> set mapreduce.map.output.

compress=true;

3）设置Hadoop的MapReduce任务中Map阶段压缩算法（对应的编/解码器）：

hive> set mapreduce.map.output.compress.

codec=org.apache.hadoop.io.compress.SnappyCodec;

常用编码/解码器：

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.DeflateCodec,

org.apache.hadoop.io.compress.SnappyCodec,

com.hadoop.compression.lzo.LzoCodec

4）案例

统计查询每个气象站的平均气温

select id , sum(temperature)/count(*) from temperature group by id limit 10;

备注：通过运行结果可以看到，使用的中间压缩，不影响hive查询

3.开启Reduce阶段输出压缩

当Hive将查询内容写入到表中（local/hdfs）时，输出内容同样可以进行压缩。

1）开启Hive最终查询结果输出文件压缩功能：

hive> set hive.exec.compress.output=true;

2）开启Hadoop中的MR任务的最终输出文件压缩：

hive> set mapreduce.output.fileoutputformat.compress=true;

3）设置Hadoop中MR任务的最终输出文件压缩算法（对应的编/解码器）：

hive> set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

4）设置Hadoop中MR任务序列化文件的压缩类型，默认为RECORD即按照记录RECORD级别压缩（建议设置成BLOCK）：

hive> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

5）案例

统计查询每个气象站的平均气温，然后将统计结果写入result表

create table result as select id , sum(temperature)/count(*) from tempera-

ture group by id;

从hdfs上查看result结果文件数据格式为snappy

查询result表，看是否能正常查询数据

select * from result limit 10;

4.另一种数据压缩配置方式

通过设置hive-site.xml文件设置启用中间数据压缩，配置文件如下：

<name>hive.exec.compress.intermediate</name>

</property>

<name>hive.exec.compress.output</name>

</property>

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

<name>mapreduce.output.fileoutputformat.compress</name>

</property>

<name>mapreduce.output.fileoutputformat.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

欢迎点赞 + 收藏 + 在看素质三连

完

▼

往期精彩回顾

▼

程序员，如何避免内卷

【全网首发】Hadoop 3.0分布式集群安装

【2020最新整理】大数据面试130题

某集团大数据平台整体架构及实施方案完整目录

大数据平台基础架构指南

大数据凉凉了？Apache将一众大数据开源项目束之高阁！

实战企业数据湖，抢先数仓新玩法

Superset制作智慧数据大屏，看它就够了

Apache Flink 在快手的过去、现在和未来

大数据基础运维：HDFS参数调优

大数据无处不在，向左还是向右

【HBase调优】Hbase万亿级存储性能优化总结

【Python精华】100个Python练手小程序

【HBase企业应用开发】工作中自己总结的Hbase笔记，非常全面！

【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

关注领福利

领10本经典大数据书

数据库

文章转载自大数据研习社，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Hive数据压缩的几种方案

评论