如何对比某个表在Hive和Doris磁盘空间大小和Doris表如何优化存储空间保姆级教程(亲试可用)

目录

一、如何查看某个表在Hive占用的磁盘空间大小

1. 使用 DESCRIBE FORMATTED 查询

2. 使用 HDFS 命令查看目录大小

3. 使用 hadoop fs -du 命令

二、如何查看某个表在Doris占用的磁盘空间大小

1、使用命令在Navicat等客户端上查询

语法​

可选参数​

 2.使用 BE 节点的 Metrics:

1. 查找 pid 的最大长度

2. 查找 pvalue 的最大值

3. 结合查询

注意

2、数据压缩

为什么需要压缩​

支持的压缩算法​

压缩原理​

影响压缩效果的因素​

数据的序列性(Order of Data)​

数据的重复度(Data Redundancy)​

数据的类型(Data Type)​

列的长度(Column Length)​

空值(Nulls)​

如何选择合适的压缩算法​

在 Doris 中设置压缩​

3、其它优化磁盘空间的策略


一、如何查看某个表在Hive占用的磁盘空间大小

在 Hive 中查看某个表占用的磁盘空间,通常依赖于底层的存储系统(如 HDFS)来查询表的实际存储情况。以下是几种常见的方式来查看 Hive 表占用的磁盘空间:

1. 使用 DESCRIBE FORMATTED 查询

DESCRIBE FORMATTED 命令可以返回表的详细信息,其中包括表的存储位置。你可以通过该命令查看表的数据存储路径,然后使用 HDFS 命令查看该路径的大小。

DESCRIBE FORMATTED ods_t_iot;

这个命令会显示表的元数据,包括表数据存储的位置(通常是 HDFS 的路径),例如:

你可能感兴趣的:(hive,hadoop,数据仓库,doris,mpp,doris优化,doris压缩)