【大数据面试题】006介绍一下Parquet存储格式的优势

一步一个脚印,一天一道面试题

列式存储

同一列的数据是同一种数据类型,所以压缩比例可以更高。同时一般查询使用时不会使用所有列,而是只用到几列,所以查询速度会更快

压缩比例高

因为是列式存储,所以可以对同一类型的一段做压缩,压缩比例高

支持的平台和框架多

在 Hadoop, Spark, Presto, Python 等都支持,所以 Parquet 文件可以在不同系统和语言通用。这是我觉得比较实在的优势

你可能感兴趣的:(一天一道面试题,大数据,spark,hadoop)