Hudi学习1:概述

Hudi学习1:概述_第1张图片Hudi 概念

Hudi跟hive很像,不存储数据,只是管理hdfs数据。

1.小文件处理

2.增加支持update、delete等操作

3.实时数据写入

以下是官方点介绍:

Apache Hudi 是一个支持插入、更新、删除的增量数据湖处理框架,有两种表类型:COW和MOR,可以自动合并小文件,Hudi自己管理元数据,元数据目录为.hoodie

Hudi提供表、事务、高效的追加/删除、高级索引、流接收服务、数据集群/压缩和并发性,同时将数据保持为开源文件格式。

支持流批一体

支持多种查询引擎(包括Apache Spark、Flink、Presto、Trino、Hive)

具体的概念可以查看官网Overview | Apache Hudi

本次学习以0.11.0版本为例

核心概念

如果您对Apache Hudi还比较陌生,那么熟悉几个核心概念是很重要的:

Hudi Timeline–Hudi 如何管理交易和其他表服务

Hudi文件存储-文件在存储中的布局方式

Hudi表类型–––COW(COPY_ON_WRITE)和MOR(MERGE_ON_READ)

Hudi查询类型–快照查询、增量查询、读取优化查询

Hudi学习1:概述_第2张图片

你可能感兴趣的:(Hudi,学习,hudi,数据湖,湖仓一体)