第一片心意

Iceberg 学习笔记

本博客对应于 B 站尚硅谷教学视频尚硅谷数据湖Iceberg实战教程（尚硅谷&Apache Iceberg官方联合推出），为视频对应笔记的相关整理。

1. Iceberg简介

1.1 概述

为了解决数据存储和计算引擎之间的适配的问题，Netflix 开发了 Iceberg，2018 年 11 月 16 日进入 Apache 孵化器，2020 年 5 月 19 日从孵化器毕业，成为 Apache 的顶级项目。

Iceberg 是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Format）可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark…）之下，数据文件之上。

1.2 特性

1.2.1 数据存储、计算引擎插件化

Iceberg 提供一个开放通用的表格式（Table Format）实现方案，不和特定的数据存储、计算引擎绑定。目前大数据领域的常见数据存储（HDFS、S3…），计算引擎（Flink、Spark…）都可以接入 Iceberg。

在生产环境中，可选择不同的组件搭使用。甚至可以不通过计算引擎，直接读取存在文件系统上的数据。

1.2.2 实时流批一体

Iceberg 上游组件将数据写入完成后，下游组件及时可读，可查询。可以满足实时场景。并且 Iceberg 同时提供了流/批读接口、流/批写接口。可以在同一个流程里，同时处理流数据和批数据，大大简化了ETL链路。

1.2.3 数据表演化（Table Evolution）

Iceberg 可以通过 SQL 的方式进行表级别模式演进。进行这些操作的时候，代价极低。不存在读出数据重新写入或者迁移数据这种费时费力的操作。

比如在常用的 Hive 中，如果我们需要把一个按天分区的表，改成按小时分区。此时，不能再原表之上直接修改，只能新建一个按小时分区的表，然后再把数据 Insert 到新的小时分区表。而且，即使我们通过 Rename 的命令把新表的名字改为原表，使用原表的上次层应用，也可能由于分区字段修改，导致需要修改 SQL，这样花费的经历是非常繁琐的。

1.2.4 模式演化（Schema Evolution）

Iceberg 支持下面几种模式演化：

ADD：向表或者嵌套结构增加新列
Drop：从表中或者嵌套结构中移除一列
Rename：重命名表中或者嵌套结构中的一列
Update：将复杂结构(struct, map,list)中的基本类型扩展类型长度, 比如 tinyint 修改成 int.
Reorder：改变列或者嵌套结构中字段的排列顺序

Iceberg 保证模式演化（Schema Evolution）是没有副作用的独立操作流程，一个元数据操作, 不会涉及到重写数据文件的过程。具体的如下:

增加列时候，不会从另外一个列中读取已存在的的数据
删除列或者嵌套结构中字段的时候，不会改变任何其他列的值
更新列或者嵌套结构中字段的时候，不会改变任何其他列的值
改变列列或者嵌套结构中字段顺序的时候，不会改变相关联的值

在表中，Iceberg 使用唯一 ID 来定位每一列的信息。新增一个列的时候，会新分配给它一个唯一 ID，并且绝对不会使用已经被使用的ID。

使用名称或者位置信息来定位列的, 都会存在一些问题，比如使用名称的话，名称可能会重复, 使用位置的话，不能修改顺序并且废弃的字段也不能删除。

1.2.5 分区演化（Partition Evolution）

Iceberg 可以在一个已存在的表上直接修改，因为 Iceberg 的查询流程并不和分区信息直接关联。

当我们改变一个表的分区策略时，对应修改分区之前的数据不会改变，依然会采用老的分区策略，新的数据会采用新的分区策略，也就是说同一个表会有两种分区策略，旧数据采用旧分区策略，新数据采用新新分区策略，在元数据里两种分区策略相互独立，不重合。

在查询数据的时候，如果存在跨分区策略的情况，则会解析成两个不同执行计划，如 Iceberg 官网提供图所示：

图中 booking_table 表 2008 年按月分区，进入 2009年后改为按天分区，这两中分区策略共存于该表中。

借助 Iceberg 的隐藏分区（Hidden Partition），在写 SQL 查询的时候，不需要在 SQL 中特别指定分区过滤条件，Iceberg 会自动分区，过滤掉不需要的数据。

Iceberg 分区演化操作同样是一个元数据操作，不会重写数据文件。

1.2.6 列顺序演化（Sort Order Evolution）

Iceberg 可以在一个已经存在的表上修改排序策略。修改了排序策略之后，旧数据依旧采用老排序策略不变。往Iceberg里写数据的计算引擎总是会选择最新的排序策略，但是当排序的代价极其高昂的时候, 就不进行排序了。

1.2.7 隐藏分区（Hidden Partition）

Iceberg 的分区信息并不需要人工维护，它可以被隐藏起来。不同于其他类似 Hive 的分区策略，Iceberg 的分区字段/策略（通过某一个字段计算出来），可以不是表的字段和表数据存储目录也没有关系。在建表或者修改分区策略之后，新的数据会自动计算所属于的分区。在查询的时候同样不用关心表的分区是什么字段/策略，只需要关注业务逻辑，Iceberg 会自动过滤不需要的分区数据。

正是由于 Iceberg 的分区信息和表数据存储目录是独立的，使得 Iceberg 的表分区可以被修改，而且不涉及到数据迁移。

1.2.8 时间旅行查询（Time Travel）

Iceberg 提供了查询表历史某一时间点数据镜像（snapshot）的能力。通过该特性可以将最新的SQL逻辑，应用到历史数据上。

1.2.9 支持事务（ACID）

Iceberg 通过提供事务（ACID）的机制，使其具备了 upsert 的能力并且使得边写边读成为可能，从而数据可以更快的被下游组件消费。通过事务保证了下游组件只能消费已 commit 的数据，而不会读到部分甚至未提交的数据。

1.2.10 基于乐观锁的并发支持

Iceberg 基于乐观锁提供了多个程序并发写入的能力并且保证数据线性一致。

1.2.11 文件级数据剪裁

Iceberg 的元数据里面提供了每个数据文件的一些统计信息，比如最大值，最小值，Count 计数等等。因此，查询 SQL 的过滤条件除了常规的分区，列过滤，甚至可以下推到文件级别，大大加快了查询效率。

1.3 其他数据湖框架的对比

2. 存储结构

2.1 数据文件 data files

数据文件是 Apache Iceberg 表真实存储数据的文件，一般是在表的数据存储目录的 data 目录下，如果我们的文件格式选择的是 parquet,那么文件是以 .parquet 结尾。

例如：00000-0-atguigu_20230203160458_22ee74c9-643f-4b27-8fc1-9cbd5f64dad4-job_1675409881387_0007-00001.parquet 就是一个数据文件。

Iceberg 每次更新会产生多个数据文件（data files）。

2.2 表快照 Snapshot

快照代表一张表在某个时刻的状态。每个快照里面会列出表在某个时刻的所有 data file 列表。data file 存储在不同的 manifest file 里面，manifest file 存储在一个 Manifest list文件里面，而一个 Manifest list 文件代表一个快照。

2.3 清单列表 Manifest list

manifest list 是一个元数据文件，列出构建表快照（Snapshot）的清单（Manifest file）。这个元数据文件中存储的是 Manifest file 列表，每个 Manifest file 占据一行。每行中存储了 Manifest file 的路径、其存储数据文件（data files）的分区范围，增加了几个数文件、删除了几个数据文件等信息，这些信息可以用来在查询时提供过滤，加快速度。

例如：snap-6746266566064388720-1-52f2f477-2585-4e69-be42-bbad9a46ed17.avro 就是一个 Manifest List 文件。

2.4 清单文件 Manifest file

Manifest file 也是一个元数据文件，它列出组成快照（snapshot）的数据文件（data file）的列表信息。每行都是每个数据文件的详细描述，包括数据文件的状态、文件路径、分区信息、列级别的统计信息（比如每列的最大最小值、空值数等）、文件的大小以及文件里面数据行数等信息。其中列级别的统计信息可以在扫描表数据时过滤掉不必要的文件。

Manifest file 是以 avro 格式进行存储的，以 .avro 后缀结尾，例如：52f2f477-2585-4e69-be42-bbad9a46ed17-m0.avro。

3. 与 Hive集成

3.1 环境准备

Hive 与 Iceberg 的版本对应关系如下

官方推荐 Hive 版本	Hive 版本	Iceberg 版本
2.3.8	2.x	0.8.0-incubating – 1.1.0
3.1.2	3.x	0.10.0 – 1.1.0

Iceberg 与 Hive 2 和 Hive 3.1.2/3 的集成，支持以下特性：

创建表
删除表
读取表
插入表（INSERT into）

更多功能需要Hive 4.x（目前 alpha 版本）才能支持。

上传 jar 包，拷贝到 Hive 的 auxlib 目录中

mkdir auxlib
cp iceberg-hive-runtime-1.1.0.jar /opt/module/hive/auxlib
cp libfb303-0.9.3.jar /opt/module/hive/auxlib

修改 hive-site.xml，添加配置项

<property>
    <name>iceberg.engine.hive.enabledname>
    <value>truevalue>
property>
<property>
    <name>hive.aux.jars.pathname>
    <value>/opt/module/hive/auxlibvalue>
property>

使用 TEZ 引擎注意事项：

Hive 版本 >=3.1.2，需要 TEZ 版本 >=0.10.1

指定 tez 更新配置：

<property>
    <name>tez.mrreader.config.update.propertiesname>
    <value>hive.io.file.readcolumn.names,hive.io.file.readcolumn.idsvalue>
property>

从 Iceberg 0.11.0 开始，如果 Hive 使用 Tez 引擎，需要关闭向量化执行：

<property>
    <name>hive.vectorized.execution.enabledname>
    <value>falsevalue>
property>

启动HMS服务
启动 Hadoop

3.2 创建和管理 Catalog

Iceberg 支持多种不同的 Catalog 类型，例如：Hive、Hadoop、亚马逊的 AWS Glue 和自定义 Catalog。

根据不同配置，分为三种情况：

没有设置 iceberg.catalog，默认使用 HiveCatalog

设置 iceberg.catalog 的类型，使用指定的 Catalog 类型，如下表格：

配置项	说明
iceberg.catalog..type	Catalog 的类型: hive, hadoop, 如果使用自定义 Catalog，则不设置
iceberg.catalog..catalog-impl	Catalog 的实现类, 如果上面的 type 没有设置，则此参数必须设置
iceberg.catalog..	Catalog 的其他配置项

设置 iceberg.catalog=location_based_table，直接通过指定的根路径来加载 Iceberg 表。

3.1.1 默认使用 HiveCatalog

CREATE TABLE iceberg_test1 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';
INSERT INTO iceberg_test1 values(1);

查看 HDFS 可以发现，表目录在默认的 hive 仓库路径下。

3.1.2 指定 Catalog 类型

使用 HiveCatalog

set iceberg.catalog.iceberg_hive.type=hive;
set iceberg.catalog.iceberg_hive.uri=thrift://hadoop1:9083;
set iceberg.catalog.iceberg_hive.clients=10;
set iceberg.catalog.iceberg_hive.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hive;

CREATE TABLE iceberg_test2 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
TBLPROPERTIES('iceberg.catalog'='iceberg_hive');

INSERT INTO iceberg_test2 values(1);

使用 HadoopCatalog

set iceberg.catalog.iceberg_hadoop.type=hadoop;
set iceberg.catalog.iceberg_hadoop.warehouse=hdfs://hadoop1:8020/warehouse/iceberg-hadoop;

CREATE TABLE iceberg_test3 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'
TBLPROPERTIES('iceberg.catalog'='iceberg_hadoop');

INSERT INTO iceberg_test3 values(1);

3.1.3 指定路径加载

如果 HDFS 中已经存在 iceberg 格式表，我们可以通过在 Hive 中创建 Icerberg 格式表指定对应的 location 路径映射数据。

CREATE EXTERNAL TABLE iceberg_test4 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler'
LOCATION 'hdfs://hadoop1:8020/warehouse/iceberg-hadoop/default/iceberg_test3'
TBLPROPERTIES ('iceberg.catalog'='location_based_table');

3.3 基本操作

3.3.1 创建表

创建外部表

CREATE EXTERNAL TABLE iceberg_create1 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

describe formatted iceberg_create1;

创建内部表

CREATE TABLE iceberg_create2 (i int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

describe formatted iceberg_create2;

创建分区表
```
CREATE EXTERNAL TABLE iceberg_create3 (id int,name string)
PARTITIONED BY (age int)
STORED BY 'org.apache.iceberg.mr.hive.HiveIcebergStorageHandler';

describe formatted iceberg_create3;
```
Hive 语法创建分区表，不会在 HMS 中创建分区，而是将分区数据转换为 Iceberg 标识分区。这种情况下不能使用 Iceberg 的分区转换，例如：days(timestamp)，如果想要使用 Iceberg 格式表的分区转换标识分区，需要使用 Spark 或者 Flink 引擎创建表。

3.3.2 修改表

只支持 HiveCatalog 表修改表属性，Iceberg 表属性和 Hive 表属性存储在 HMS 中是同步的。

ALTER TABLE iceberg_create1 SET TBLPROPERTIES('external.table.purge'='FALSE');

3.3.3 插入表

支持标准单表 INSERT INTO 操作

INSERT INTO iceberg_create2 VALUES (1);

INSERT INTO iceberg_create1 select * from iceberg_create2;

在 HIVE 3.x 中，INSERT OVERWRITE 虽然能执行，但其实是追加。

3.3.4 删除表

DROP TABLE iceberg_create1;

4. 与 Spark SQL集成

4.1 环境准备

4.1.1 安装 Spark

Spark 与 Iceberg 的版本对应关系如下

Spark 版本	Iceberg 版本
2.4	0.7.0-incubating – 1.1.0
3.0	0.9.0 – 1.0.0
3.1	0.12.0 – 1.1.0
3.2	0.13.0 – 1.1.0
3.3	0.14.0 – 1.1.0

上传并解压 Spark 安装包

tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/
mv /opt/module/spark-3.3.1-bin-hadoop3 /opt/module/spark-3.3.1

配置环境变量

sudo vim /etc/profile.d/my_env.sh

export SPARK_HOME=/opt/module/spark-3.3.1
export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile.d/my_env.sh

拷贝 iceberg 的 jar 包到 Spark 的 jars 目录

cp /opt/software/iceberg/iceberg-spark-runtime-3.3_2.12-1.1.0.jar /opt/module/spark-3.3.1/jars

4.1.2 启动 Hadoop

（略）

4.2 Spark 配置 Catalog

Spark 中支持两种 Catalog 的设置：hive 和 hadoop，Hive Catalog 就是 Iceberg 表存储使用 Hive 默认的数据路径，Hadoop Catalog 需要指定 Iceberg 格式表存储路径。

下面修改 spark 的默认配置文件

vim spark-defaults.conf

4.2.1 Hive Catalog

将下面的代码配置到 spark-defaults.conf 文件中

spark.sql.catalog.hive_prod = org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.hive_prod.type = hive
spark.sql.catalog.hive_prod.uri = thrift://hadoop1:9083

4.2.2 Hadoop Catalog

将下面的代码配置到 spark-defaults.conf 文件中

spark.sql.catalog.hadoop_prod = org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.hadoop_prod.type = hadoop
spark.sql.catalog.hadoop_prod.warehouse = hdfs://hadoop1:8020/warehouse/spark-iceberg

4.3 SQL 操作

4.3.1 创建表

use hadoop_prod;

create database default;

use default;

CREATE TABLE hadoop_prod.default.sample1 (
id bigint COMMENT 'unique id',
data string)
USING iceberg;

PARTITIONED BY (partition-expressions) ：配置分区
LOCATION ‘(fully-qualified-uri)’ ：指定表路径
COMMENT ‘table documentation’ ：配置表备注
TBLPROPERTIES (‘key’=‘value’, …) ：配置表属性
- 表属性：https://iceberg.apache.org/docs/latest/configuration/

对 Iceberg 表的每次更改都会生成一个新的元数据文件（json文件）以提供原子性。默认情况下，旧元数据文件作为历史文件保存不会删除。

如果要自动清除元数据文件，在表属性中设置 write.metadata.delete-after-commit.enabled=true。这将保留一些元数据文件（直到元数据文件版本数量超过 write.metadata.previous-versions-max），并在每个新创建的元数据文件之后删除旧的元数据文件。

创建分区表

分区表

CREATE TABLE hadoop_prod.default.sample2 (
    id bigint,
    data string,
    category string
)
USING iceberg
PARTITIONED BY (category)

创建隐藏分区表
```
CREATE TABLE hadoop_prod.default.sample3 (
    id bigint,
    data string,
    category string,
    ts timestamp
)
USING iceberg
PARTITIONED BY (bucket(16, id), days(ts), category)
```
支持的转换有：
- years(ts):按年划分
- months(ts):按月划分
- **days(ts) **或 date(ts):等效于 dateint 分区
- hours(ts) 或 date_hour(ts):等效于dateint和hour分区
- **bucket(N, col)*按哈希值划分 mod N 个桶
- truncate(L, col):按截断为 L 的值划分
  - 字符串被截断为给定的长度

使用 CTAS 语法建表

CREATE TABLE hadoop_prod.default.sample4
USING iceberg
AS SELECT * from hadoop_prod.default.sample3

不指定分区就是创建无分区，如需创建分区表，需要重新指定分区、表属性：

CREATE TABLE hadoop_prod.default.sample5
USING iceberg
PARTITIONED BY (bucket(8, id), hours(ts), category)
TBLPROPERTIES ('key' = 'value')
AS SELECT * from hadoop_prod.default.sample3

使用 Replace table 建表

REPLACE TABLE hadoop_prod.default.sample5
USING iceberg
AS SELECT * from hadoop_prod.default.sample3;

REPLACE TABLE hadoop_prod.default.sample5
USING iceberg
PARTITIONED BY (part)
TBLPROPERTIES ('key'='value')
AS SELECT * from hadoop_prod.default.sample3;

CREATE OR REPLACE TABLE hadoop_prod.default.sample6
USING iceberg
AS SELECT * from hadoop_prod.default.sample3

4.3.2 删除表

对于 HadoopCatalog 而言，运行 DROP TABLE 将从 catalog中删除表并删除表内容。

CREATE EXTERNAL TABLE hadoop_prod.default.sample7 (
    id bigint COMMENT 'unique id',
    data string
)
USING iceberg;

INSERT INTO hadoop_prod.default.sample7 values(1,'a');

DROP TABLE hadoop_prod.default.sample7;

对于 HiveCatalog 而言：

在 0.14 之前，运行 DROP TABLE 将从 catalog 中删除表并删除表内容。
从 0.1 开始，DROP TABLE 只会从 catalog 中删除表，不会删除数据。为了删除表内容，应该使用 DROP table PURGE。

CREATE TABLE hive_prod.default.sample7 (
    id bigint COMMENT 'unique id',
    data string
)
USING iceberg;

INSERT INTO hive_prod.default.sample7 values(1,'a');

删除表
```
DROP TABLE hive_prod.default.sample7;
```

删除表和数据

DROP TABLE hive_prod.default.sample7 PURGE

4.3.3 修改表

Iceberg 在 Spark 3 中完全支持 ALTER TABLE，包括:

重命名表
设置或删除表属性
添加、删除和重命名列
添加、删除和重命名嵌套字段
重新排序顶级列和嵌套结构字段
扩大 int、float 和 decimal 字段的类型
将必选列变为可选列

此外，还可以使用 SQL 扩展来添加对分区演变的支持和设置表的写顺序。

CREATE TABLE hive_prod.default.sample1 (
	id bigint COMMENT 'unique id',
	data string
)
USING iceberg

修改表名（不支持修改 HadoopCatalog 的表名）

ALTER TABLE hive_prod.default.sample1 RENAME TO hive_prod.default.sample2

修改表属性

修改表属性

ALTER TABLE hive_prod.default.sample1 SET TBLPROPERTIES ('read.split.target-size' = '268435456');

ALTER TABLE hive_prod.default.sample1 SET TBLPROPERTIES ('comment' = 'A table comment.');

删除表属性

ALTER TABLE hive_prod.default.sample1 UNSET TBLPROPERTIES ('read.split.target-size')

添加列

ALTER TABLE hadoop_prod.default.sample1 ADD COLUMNS (category string comment 'new_column');

-- 添加struct类型的列
ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN point struct<x: double, y: double>;

-- 往struct类型的列中添加字段
ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN point.z double;

-- 创建struct的嵌套数组列
ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN points array<struct<x: double, y: double>>;

-- 在数组中的结构中添加一个字段。使用关键字'element'访问数组的元素列。
ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN points.element.z double;

-- 创建一个包含Map类型的列，key和value都为struct类型
ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN pointsm map<struct<x: int>, struct<a: int>>;

-- 在Map类型的value的struct中添加一个字段
ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN pointsm.value.b int;

在 Spark 2.4.4 及以后版本中，可以通过添加 FIRST 或 AFTER 子句在任何位置添加列：

ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN new_column1 bigint AFTER id;

ALTER TABLE hadoop_prod.default.sample1 ADD COLUMN new_column2 bigint FIRST;

修改列

修改列名

ALTER TABLE hadoop_prod.default.sample1 RENAME COLUMN data TO data1;

Alter Column 修改类型（只允许安全的转换）

ALTER TABLE hadoop_prod.default.sample1 ADD COLUMNS (idd int);

ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN idd TYPE bigint;

Alter Column 修改列的注释

ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id TYPE double COMMENT 'a';

ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id COMMENT 'b';

Alter Column修改列的顺序

ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id FIRST;

ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN new_column2 AFTER new_column1;

Alter Column修改列是否允许为 null

ALTER TABLE hadoop_prod.default.sample1 ALTER COLUMN id DROP NOT NULL;

ALTER COLUMN 不能更新 struct 类型。使用 ADD COLUMN 和 DROP COLUMN 添加或删除 struct 类型的字段。

删除列

ALTER TABLE hadoop_prod.default.sample1 DROP COLUMN idd;

ALTER TABLE hadoop_prod.default.sample1 DROP COLUMN point.z;

添加分区（Spark3，需要配置扩展）

vim spark-default.conf

增加下面的配置：

spark.sql.extensions = org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

重新进入 spark-sql shell，然后执行以下 sql：

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD category;

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD bucket(16, id);

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD truncate(data, 4);

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD years(ts);

ALTER TABLE hadoop_prod.default.sample1 ADD PARTITION FIELD bucket(16, id) AS shard

删除分区（Spark3，需要配置扩展）
```
ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD category;

ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD bucket(16, id);

ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD truncate(data, 4);

ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD years(ts);

ALTER TABLE hadoop_prod.default.sample1 DROP PARTITION FIELD shard;
```
注意，尽管删除了分区，但列仍然存在于表结构中。

删除分区字段是元数据操作，不会改变任何现有的表数据。新数据将被写入新的分区，但现有数据将保留在旧的分区布局中。

当分区发生变化时，动态分区覆盖行为也会发生变化。例如，如果按天划分分区，而改为按小时划分分区，那么覆盖将覆盖每小时划分的分区，而不再覆盖按天划分的分区。

删除分区字段时要小心，可能导致元数据查询失败或产生不同的结果。

修改分区（Spark3，需要配置扩展）

ALTER TABLE hadoop_prod.default.sample1 REPLACE PARTITION FIELD bucket(16, id) WITH bucket(8, id);

修改表的写入顺序

ALTER TABLE hadoop_prod.default.sample1 WRITE ORDERED BY category, id;

ALTER TABLE hadoop_prod.default.sample1 WRITE ORDERED BY category ASC, id DESC;

ALTER TABLE hadoop_prod.default.sample1 WRITE ORDERED BY category ASC NULLS LAST, id DESC NULLS FIRST;

表写顺序不保证查询的数据顺序。它只影响数据写入表的方式。

WRITE ORDERED BY 设置了一个全局排序，即跨任务的行排序，就像在 INSERT 命令中使用 ORDER BY 一样:

INSERT INTO hadoop_prod.default.sample1
SELECT id, data, category, ts FROM another_table
ORDER BY ts, category;

要在每个任务内排序，而不是跨任务排序，使用 local ORDERED BY:

ALTER TABLE hadoop_prod.default.sample1 WRITE LOCALLY ORDERED BY category, id;

按分区并行写入

ALTER TABLE hadoop_prod.default.sample1 WRITE DISTRIBUTED BY PARTITION;

ALTER TABLE hadoop_prod.default.sample1 WRITE DISTRIBUTED BY PARTITION LOCALLY ORDERED BY category, id;

4.3.4 插入数据

CREATE TABLE hadoop_prod.default.a (
    id bigint,
    count bigint
)
USING iceberg;

CREATE TABLE hadoop_prod.default.b (
    id bigint,
    count bigint,
    flag string
)
USING iceberg;

Insert Into

INSERT INTO hadoop_prod.default.a VALUES (1, 1), (2, 2), (3, 3);

INSERT INTO hadoop_prod.default.b VALUES (1, 1, 'a'), (2, 2, 'b'), (4, 4, 'd');

MERGE INTO 行级更新

MERGE INTO hadoop_prod.default.a t USING (
    SELECT * FROM hadoop_prod.default.b
) u 
ON t.id = u.id
WHEN MATCHED AND u.flag='b' THEN UPDATE SET t.count = t.count + u.count
WHEN MATCHED AND u.flag='a' THEN DELETE
WHEN NOT MATCHED THEN INSERT (id,count) values (u.id,u.count);

4.3.5 查询数据

普通查询

SELECT count(1) as count, data
FROM hadoop_prod.default.a
GROUP BY data

查询元数据

-- 查询表快照
SELECT * FROM hadoop_prod.default.a.snapshots;

-- 查询数据文件信息
SELECT * FROM hadoop_prod.default.a.files;

-- 查询表历史
SELECT * FROM hadoop_prod.default.a.history;

-- 查询 manifest
SELECT * FROM hadoop_prod.default.a.manifests;

4.3.6 存储过程

Procedures 可以通过 CALL 从任何已配置的 Iceberg Catalog` 中使用。所有 Procedures 都在 namespace 中。

语法
按照参数名传参

CALL catalog_name.system.procedure_name(arg_name_2 => arg_2, arg_name_1=> arg_1);

当按位置传递参数时，如果结束参数是可选的，则只有结束参数可以省略。

CALL catalog_name.system.procedure_name(arg_1, arg_2, ... arg_n);

快照管理

回滚到指定的快照id

CALL hadoop_prod.system.rollback_to_snapshot('default.a', 7601163594701794741);

回滚到指定时间的快照

CALL hadoop_prod.system.rollback_to_timestamp('db.sample', TIMESTAMP '2021-06-30 00:00:00.000');

设置表的当前快照ID

CALL hadoop_prod.system.set_current_snapshot('db.sample', 1);

从快照变为当前表状态

CALL hadoop_prod.system.cherrypick_snapshot('default.a', 7629160535368763452);

CALL hadoop_prod.system.cherrypick_snapshot(snapshot_id => 7629160535368763452, table => 'default.a' );

元数据管理

删除早于指定日期和时间的快照，但保留最近 100 个快照:

CALL hive_prod.system.expire_snapshots('db.sample', TIMESTAMP '2021-06-30 00:00:00.000', 100);

删除 Iceberg 表中任何元数据文件中没有引用的文件

-- 列出所有需要删除的候选文件
CALL catalog_name.system.remove_orphan_files(table => 'db.sample', dry_run => true);

-- 删除指定目录中db.sample表不知道的任何文件
CALL catalog_name.system.remove_orphan_files(table => 'db.sample', location => 'tablelocation/data')

合并数据文件（合并小文件）

CALL catalog_name.system.rewrite_data_files('db.sample');

CALL catalog_name.system.rewrite_data_files(table => 'db.sample', strategy => 'sort', sort_order => 'id DESC NULLS LAST, name ASC NULLS FIRST');

CALL catalog_name.system.rewrite_data_files(table => 'db.sample', strategy => 'sort', sort_order => 'zorder(c1,c2)');

CALL catalog_name.system.rewrite_data_files(table => 'db.sample', options => map('min-input-files', '2'));

CALL catalog_name.system.rewrite_data_files(table => 'db.sample', where => 'id = 3 and name = "foo"');

重写表清单来优化执行计划

CALL catalog_name.system.rewrite_manifests('db.sample')；

-- 重写表 db 中的清单文件，并禁用 Spark 缓存的使用，这样做可以避免执行程序上的内存问题
CALL catalog_name.system.rewrite_manifests('db.sample', false);

迁移表

快照

CALL catalog_name.system.snapshot('db.sample', 'db.snap');

CALL catalog_name.system.snapshot('db.sample', 'db.snap', '/tmp/temptable/');

迁移

CALL catalog_name.system.migrate('spark_catalog.db.sample', map('foo', 'bar'));

CALL catalog_name.system.migrate('db.sample');

添加数据文件

CALL spark_catalog.system.add_files(
    table => 'db.tbl',
    source_table => 'db.src_tbl',
    partition_filter => map('part_col_1', 'A')
);

CALL spark_catalog.system.add_files(
    table => 'db.tbl',
    source_table => '`parquet`.`path/to/table`'
);

元数据信息

获取指定快照的父快照 id

CALL spark_catalog.system.ancestors_of('db.tbl');

获取指定快照的所有祖先快照

CALL spark_catalog.system.ancestors_of('db.tbl', 1);

CALL spark_catalog.system.ancestors_of(snapshot_id => 1, table => 'db.tbl');

4.4 DataFrame 操作

4.4.1 环境准备

创建maven工程，配置pom文件


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.atguigu.iceberggroupId>
    <artifactId>spark-iceberg-demoartifactId>
    <version>1.0-SNAPSHOTversion>

    <properties>
        <scala.binary.version>2.12scala.binary.version>
        <spark.version>3.3.1spark.version>
        <maven.compiler.source>8maven.compiler.source>
        <maven.compiler.target>8maven.compiler.target>
    properties>

    <dependencies>
        
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-core_${scala.binary.version}artifactId>
            <scope>providedscope>
            <version>${spark.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-sql_${scala.binary.version}artifactId>
            <scope>providedscope>
            <version>${spark.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-hive_${scala.binary.version}artifactId>
            <scope>providedscope>
            <version>${spark.version}version>
        dependency>

        
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.83version>
        dependency>
        

        
        <dependency>
            <groupId>org.apache.iceberggroupId>
            <artifactId>iceberg-spark-runtime-3.3_2.12artifactId>
            <version>1.1.0version>
        dependency>


    dependencies>

    <build>
        <plugins>
            
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-assembly-pluginartifactId>
                <version>3.0.0version>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
                <configuration>
                    <archive>
                        <manifest>
                        manifest>
                    archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
            plugin>

            
            <plugin>
                <groupId>net.alchim31.mavengroupId>
                <artifactId>scala-maven-pluginartifactId>
                <version>3.2.2version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compilegoal>
                            <goal>testCompilegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

project>

配置Catalog

val spark: SparkSession = SparkSession.builder().master("local").appName(this.getClass.getSimpleName)
  //指定hive catalog, catalog名称为iceberg_hive
  .config("spark.sql.catalog.iceberg_hive", "org.apache.iceberg.spark.SparkCatalog")
  .config("spark.sql.catalog.iceberg_hive.type", "hive")
  .config("spark.sql.catalog.iceberg_hive.uri", "thrift://hadoop1:9083")
  //    .config("iceberg.engine.hive.enabled", "true")
  //指定hadoop catalog，catalog名称为iceberg_hadoop 
  .config("spark.sql.catalog.iceberg_hadoop", "org.apache.iceberg.spark.SparkCatalog")
  .config("spark.sql.catalog.iceberg_hadoop.type", "hadoop")
  .config("spark.sql.catalog.iceberg_hadoop.warehouse", "hdfs://hadoop1:8020/warehouse/spark-iceberg")
  .getOrCreate()

4.4.2 读取表

加载表

spark.read
    .format("iceberg")
	.load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a")
	.show()

或

// 仅支持Spark3.0以上
spark.table("iceberg_hadoop.default.a")
	.show()

时间旅行：指定时间查询

spark.read
    .option("as-of-timestamp", "499162860000")
    .format("iceberg")
    .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a")
    .show()

时间旅行：指定快照id查询

spark.read
    .option("snapshot-id", 7601163594701794741L)
    .format("iceberg")
    .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a")
    .show()

增量查询

spark.read
    .format("iceberg")
    .option("start-snapshot-id", "10963874102873")
    .option("end-snapshot-id", "63874143573109")
    .load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a")
    .show()

查询的表只能是 append 的方式写数据，不支持 replace, overwrite, delete 操作。

4.4.3 检查表

查询元数据

spark.read.format("iceberg").load("iceberg_hadoop.default.a.files")
spark.read.format("iceberg").load("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a#files")

元数据表时间旅行查询

spark.read
    .format("iceberg")
    .option("snapshot-id", 7601163594701794741L)
    .load("iceberg_hadoop.default.a.files")

4.4.4 写入表

创建样例类，准备DF

case class Sample(id:Int,data:String,category:String)
val df: DataFrame = spark.createDataFrame(Seq(Sample(1, 'A', 'a'), Sample(2, 'B', 'b'), Sample(3, 'C', 'c')))

插入数据并建表

df.writeTo("iceberg_hadoop.default.table1").create()

import spark.implicits._
df.writeTo("iceberg_hadoop.default.table1")
  .tableProperty("write.format.default", "orc")
  .partitionedBy($"category")
  .createOrReplace()

append 追加

df.writeTo("iceberg_hadoop.default.table1").append()

动态分区覆盖

df.writeTo("iceberg_hadoop.default.table1").overwritePartitions()

静态分区覆盖

import spark.implicits._
df.writeTo("iceberg_hadoop.default.table1").overwrite($"category" === "c")

插入分区表且分区内排序

df.sortWithinPartitions("category")
    .writeTo("iceberg_hadoop.default.table1")
    .append()

4.4.5 维护表

获取Table对象

HadoopCatalog

import org.apache.hadoop.conf.Configuration;
import org.apache.iceberg.hadoop.HadoopCatalog;
import org.apache.iceberg.Table;
import org.apache.iceberg.catalog.TableIdentifier;

val conf = new Configuration()
val catalog = new HadoopCatalog(conf,"hdfs://hadoop1:8020/warehouse/spark-iceberg")
val table: Table = catalog.loadTable(TableIdentifier.of("db","table1"))

HiveCatalog

import org.apache.iceberg.hive.HiveCatalog;
import org.apache.iceberg.Table;
import org.apache.iceberg.catalog.TableIdentifier;

val catalog = new HiveCatalog()
catalog.setConf(spark.sparkContext.hadoopConfiguration)

val properties = new util.HashMap[String,String]()
properties.put("warehouse", "hdfs://hadoop1:8020/warehouse/spark-iceberg")
properties.put("uri", "thrift://hadoop1:9083")

catalog.initialize("hive", properties)
val table: Table = catalog.loadTable(TableIdentifier.of("db", "table1"))

快照过期清理
每次写入 Iceberg 表都会创建一个表的新快照或版本。快照可以用于时间旅行查询，或者将表回滚到任何有效的快照。建议设置快照过期时间，过期的旧快照将从元数据中删除（不再可用于时间旅行查询）。

// 1 天过期时间
val tsToExpire: Long = System.currentTimeMillis() - (1000 * 60 * 60 * 24)

table.expireSnapshots()
  .expireOlderThan(tsToExpire)
  .commit()

或使用 SparkActions 来设置过期：

// SparkActions 可以并行运行大型表的表过期设置
SparkActions.get()
  .expireSnapshots(table)
  .expireOlderThan(tsToExpire)
  .execute()

删除无效文件
在 Spark 和其他分布式处理引擎中，任务或作业失败可能会留下未被表元数据引用的文件，在某些情况下，正常的快照过期可能无法确定不再需要并删除该文件。
```
SparkActions
    .get()
    .deleteOrphanFiles(table)
    .execute()
```

合并小文件
数据文件过多会导致更多的元数据存储在清单文件中，而较小的数据文件会导致不必要的元数据量和更低效率的文件打开成本。

SparkActions
    .get()
    .rewriteDataFiles(table)
    .filter(Expressions.equal("category", "a"))
    .option("target-file-size-bytes", 1024L.toString) // 1KB
    .execute()

5. 与 Flink SQL 集成

Apache Iceberg 同时支持 Apache Flink 的 DataStream API 和 Table API。

5.1 环境准备

5.1.1 安装 Flink

Flink与Iceberg的版本对应关系如下

Flink 版本	Iceberg 版本
1.11	0.9.0 – 0.12.1
1.12	0.12.0 – 0.13.1
1.13	0.13.0 – 1.0.0
1.14	0.13.0 – 1.1.0
1.15	0.14.0 – 1.1.0
1.16	1.1.0 – 1.1.0

上传并解压Flink安装包

tar -zxvf flink-1.16.0-bin-scala_2.12.tgz -C /opt/module/

配置环境变量

sudo vim /etc/profile.d/my_env.sh

export HADOOP_CLASSPATH = `hadoop classpath`

source /etc/profile.d/my_env.sh

拷贝iceberg的jar包到Flink的lib目录

cp /opt/software/iceberg/iceberg-flink-runtime-1.16-1.1.0.jar /opt/module/flink-1.16.0/lib

5.1.2 启动 Hadoop

（略）

5.1.3 启动 sql-client

修改 flink-conf.yaml 配置

vim /opt/module/flink-1.16.0/conf/flink-conf.yaml

classloader.check-leaked-classloader: false
taskmanager.numberOfTaskSlots: 4
state.backend: rocksdb
execution.checkpointing.interval: 30000
state.checkpoints.dir: hdfs://hadoop1:8020/ckps
state.backend.incremental: true

local模式

修改workers

vim /opt/module/flink-1.16.0/conf/workers

localhost
localhost
localhost

在本地启动包含 3 个 TaskManager 的 local 集群

启动Flink

/opt/module/flink-1.16.0/bin/start-cluster.sh

查看webui：http://hadoop1:8081

启动Flink的sql-client

/opt/module/flink-1.16.0/bin/sql-client.sh embedded

5.2 创建和使用 Catalog

5.2.1 语法说明

CREATE CATALOG <catalog_name> WITH (
    'type' = 'iceberg',
    '' = ''
);

type: 必须是 iceberg。（必须）
catalog-type:内置了 hive 和 hadoop 两种 catalog，也可以使用 catalog-impl 来自定义 catalog。（可选）
catalog-impl:自定义 catalog 实现类的全限定类名。如果未设置 catalog-type，则必须设置该选项。（可选）
property-version:描述属性版本的版本号。此属性可用于向后兼容，以防属性格式更改。当前属性版本为1。（可选）
cache-enabled: 是否启用目录缓存，默认值为 true。（可选）
cache.expiration-interval-ms:本地缓存 catalog 条目的时间(以毫秒为单位)；负值，如 -1 表示没有时间限制，不允许设为 0。默认值为 -1。（可选）

5.2.2 Hive Catalog

上传 hive connector 到 flink 的 lib 中

cp flink-sql-connector-hive-3.1.2_2.12-1.16.0.jar /opt/module/flink-1.16.0/lib/

启动 hive metastore 服务
```
hive --service metastore
```
创建 hive catalog
重启 flink 集群，重新进入 sql-client
```
CREATE CATALOG hive_catalog WITH (
    'type'='iceberg',
    'catalog-type'='hive',
    'uri'='thrift://hadoop1:9083',
    'clients'='5',
    'property-version'='1',
    'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hive'
);

use catalog hive_catalog;
```
- uri: Hive metastore 的 thrift uri。(必选)
- clients:Hive metastore 客户端池大小，默认为 2。(可选)
- warehouse: 数仓目录。
- hive-conf-dir:包含 hive-site.xml 配置文件的目录路径，hive-site.xml 中 hive.metastore.warehouse.dir 的值会被 warehouse 覆盖。
- hadoop-conf-dir:包含 core-site.xml 和 hdfs-site.xml 配置文件的目录路径。

5.2.3 Hadoop Catalog

Iceberg 还支持 HDFS 中基于目录的 catalog，可以使用 'catalog-type' = 'hadoop' 配置。

CREATE CATALOG hadoop_catalog WITH (
    'type'='iceberg',
    'catalog-type'='hadoop',
    'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hadoop',
    'property-version'='1'
);

use catalog hadoop_catalog;

warehouse:存放元数据文件和数据文件的 HDFS 目录。（必需）

5.2.4 配置 sql-client 初始化文件

vim /opt/module/flink-1.16.0/conf/sql-client-init.sql

CREATE CATALOG hive_catalog WITH (
    'type'='iceberg',
    'catalog-type'='hive',
    'uri'='thrift://hadoop1:9083',
    'warehouse'='hdfs://hadoop1:8020/warehouse/iceberg-hive'
);

USE CATALOG hive_catalog;

后续启动 sql-client 时，加上 -i sql文件路径，即可完成 catalog 的初始化。

/opt/module/flink-1.16.0/bin/sql-client.sh embedded -i conf/sql-client-init.sql

5.3 DDL 语句

5.3.1 创建数据库

CREATE DATABASE iceberg_db;

USE iceberg_db;

5.3.2 创建表

CREATE TABLE `hive_catalog`.`default`.`sample` (
    id BIGINT COMMENT 'unique id',
    data STRING
);

建表命令现在支持最常用的 flink 建表语法，包括:

PARTITION BY (column1, column2, …)：配置分区，apache flink 还不支持隐藏分区。
COMMENT ‘table document’：指定表的备注
WITH (‘key’=‘value’, …)：设置表属性

目前，不支持计算列、watermark（支持主键）。

创建分区表
```
CREATE TABLE `hive_catalog`.`default`.`sample` (
    id BIGINT COMMENT 'unique id',
    data STRING
) PARTITIONED BY (data);
```
Apache Iceberg 支持隐藏分区，但 Apache flink 不支持在列上通过函数进行分区，现在无法在 flink DDL 中支持隐藏分区。

使用 LIKE 语法建表
LIKE 语法用于创建一个与另一个表具有相同 schema、分区和属性的表。

CREATE TABLE `hive_catalog`.`default`.`sample` (
    id BIGINT COMMENT 'unique id',
    data STRING
);

CREATE TABLE `hive_catalog`.`default`.`sample_like` LIKE `hive_catalog`.`default`.`sample`;

5.3.3 修改表

修改表属性

ALTER TABLE `hive_catalog`.`default`.`sample` SET ('write.format.default'='avro');

修改表名

ALTER TABLE `hive_catalog`.`default`.`sample` RENAME TO `hive_catalog`.`default`.`new_sample`;

5.3.4 删除表

DROP TABLE `hive_catalog`.`default`.`sample`;

5.4 插入语句

5.4.1 INSERT INTO

INSERT INTO `hive_catalog`.`default`.`sample` VALUES (1, 'a');

INSERT INTO `hive_catalog`.`default`.`sample` SELECT id, data from sample2;

5.4.2 INSERT OVERWRITE

仅支持 Flink 的 Batch 模式

SET execution.runtime-mode = batch;

INSERT OVERWRITE sample VALUES (1, 'a');

INSERT OVERWRITE `hive_catalog`.`default`.`sample` PARTITION(data='a') SELECT 6;

5.4.3 UPSERT

当将数据写入 v2 表格式时，Iceberg 支持基于主键的 UPSERT。有两种方法可以启用 upsert。

建表时指定

CREATE TABLE `hive_catalog`.`test1`.`sample5` (
    `id` INT UNIQUE COMMENT 'unique id',
    `data` STRING NOT NULL,
    PRIMARY KEY(`id`) NOT ENFORCED
) with (
    'format-version'='2',
    'write.upsert.enabled'='true'
);

插入时指定
```
INSERT INTO tableName /*+ OPTIONS('upsert-enabled'='true') */

...
```
插入的表，format-version 需要为 2。
OVERWRITE 和 UPSERT 不能同时设置。在 UPSERT 模式下，如果对表进行分区，则分区字段必须也是主键。

读取 Kafka 流，upsert 插入到 iceberg 表中

create table default_catalog.default_database.kafka(
    id int,
    data string
) with (
    'connector' = 'kafka'
    ,'topic' = 'test111'
    ,'properties.zookeeper.connect' = 'hadoop1:2181'
    ,'properties.bootstrap.servers' = 'hadoop1:9092'
    ,'format' = 'json'
    ,'properties.group.id'='iceberg'
    ,'scan.startup.mode'='earliest-offset'
);

INSERT INTO hive_catalog.test1.sample5 SELECT * FROM default_catalog.default_database.kafka;

5.5 查询语句

Iceberg 支持 Flink 的流式和批量读取。

5.5.1 Batch 模式

SET execution.runtime-mode = batch;

select * from sample;

5.5.2 Streaming 模式

SET execution.runtime-mode = streaming;

SET table.dynamic-table-options.enabled=true;

SET sql-client.execution.result-mode=tableau;

从当前快照读取所有记录，然后从该快照读取增量数据

SELECT * FROM sample5 /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ ;

读取指定快照 id（不包含）后的增量数据
```
SELECT * FROM sample /*+ OPTIONS(
    'streaming'='true',
    'monitor-interval'='1s',
    'start-snapshot-id'='3821550127947089987'
)*/ ;
```
- monitor-interval: 连续监控新提交数据文件的时间间隔（默认为 10s）。
- start-snapshot-id: 流作业开始的快照 id。

**注意：**如果是无界数据流式 upsert 进 iceberg 表（读 kafka，upsert 进 iceberg 表），那么再去流读 iceberg 表会存在读不出数据的问题。如果无界数据流式 append 进 iceberg 表（读 kafka，append 进 iceberg 表），那么流读该 iceberg 表可以正常看到结果。

5.6 与Flink集成的不足

支持的特性	Flink	备注
SQL create catalog	√
SQL create database	√
SQL create table	√
SQL create table like	√
SQL alter table	√	只支持修改表属性，不支持更改列和分区
SQL drop_table	√
SQL select	√	支持流式和批处理模式
SQL insert into	√	支持流式和批处理模式
SQL insert overwrite	√
DataStream read	√
DataStream append	√
DataStream overwrite	√
Metadata tables		支持 Java API，不支持 Flink SQL
Rewrite files action	√

不支持创建隐藏分区的 Iceberg 表。
不支持创建带有计算列的 Iceberg 表。
不支持创建带 watermark 的 Iceberg 表。
不支持添加列，删除列，重命名列，更改列。
Iceberg 目前不支持 Flink SQL 查询表的元数据信息，需要使用 Java API 实现。

6. 与 Flink DataStream 集成

6.1 环境准备

6.1.1 配置pom文件

新建 Maven工程，pom 文件配置如下：


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.atguigu.iceberggroupId>
    <artifactId>flink-iceberg-demoartifactId>
    <version>1.0-SNAPSHOTversion>


    <properties>
        <maven.compiler.source>8maven.compiler.source>
        <maven.compiler.target>8maven.compiler.target>
        <flink.version>1.16.0flink.version>
        <java.version>1.8java.version>
        <scala.binary.version>2.12scala.binary.version>
        <slf4j.version>1.7.30slf4j.version>
    properties>

    <dependencies>

        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-javaartifactId>
            <version>${flink.version}version>
            <scope>providedscope>   
        dependency>
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-streaming-javaartifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-clientsartifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>

        
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-table-planner_${scala.binary.version}artifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>

        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-connector-filesartifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>

        
        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-runtime-webartifactId>
            <version>${flink.version}version>
            <scope>providedscope>
        dependency>

        <dependency>
            <groupId>org.slf4jgroupId>
            <artifactId>slf4j-apiartifactId>
            <version>${slf4j.version}version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.slf4jgroupId>
            <artifactId>slf4j-log4j12artifactId>
            <version>${slf4j.version}version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.logging.log4jgroupId>
            <artifactId>log4j-to-slf4jartifactId>
            <version>2.14.0version>
            <scope>providedscope>
        dependency>


        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-statebackend-rocksdbartifactId>
            <version>${flink.version}version>
        dependency>

        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-clientartifactId>
            <version>3.1.3version>
            <scope>providedscope>
        dependency>

        
        <dependency>
            <groupId>org.apache.iceberggroupId>
            <artifactId>iceberg-flink-runtime-1.16artifactId>
            <version>1.1.0version>
        dependency>

    dependencies>


    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-shade-pluginartifactId>
                <version>3.2.4version>
                <executions>
                    <execution>
                        <phase>packagephase>
                        <goals>
                            <goal>shadegoal>
                        goals>
                        <configuration>
                            <artifactSet>
                                <excludes>
                                    <exclude>com.google.code.findbugs:jsr305exclude>
                                    <exclude>org.slf4j:*exclude>
                                    <exclude>log4j:*exclude>
                                    <exclude>org.apache.hadoop:*exclude>
                                excludes>
                            artifactSet>
                            <filters>
                                <filter>
                                    
                                    <artifact>*:*artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SFexclude>
                                        <exclude>META-INF/*.DSAexclude>
                                        <exclude>META-INF/*.RSAexclude>
                                    excludes>
                                filter>
                            filters>
                            <transformers combine.children="append">
                                <transformer
                                        implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer">
                                transformer>
                            transformers>
                        configuration>
                    execution>
                executions>
            plugin>
        plugins>
    build>


project>

6.1.2 配置log4j

resources 目录下新建 log4j.properties。

log4j.rootLogger=error,stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.target=System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

6.2 读取数据

6.2.1 常规 Source 写法

Batch 方式

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a");
DataStream<RowData> batch = FlinkSource.forRowData()
     .env(env)
     .tableLoader(tableLoader)
     .streaming(false)
     .build();

batch.map(r -> Tuple2.of(r.getLong(0),r.getLong(1) ))
      .returns(Types.TUPLE(Types.LONG,Types.LONG))
      .print();

env.execute("Test Iceberg Read");

Streaming 方式

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a"); 
DataStream<RowData> stream = FlinkSource.forRowData()
     .env(env)
     .tableLoader(tableLoader)
     .streaming(true)
     .startSnapshotId(3821550127947089987L)
     .build();

stream.map(r -> Tuple2.of(r.getLong(0),r.getLong(1) ))
      .returns(Types.TUPLE(Types.LONG,Types.LONG))
      .print();

env.execute("Test Iceberg Read");

6.2.2 FLIP-27 Source写法

Batch 方式

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a");

IcebergSource<RowData> source1 = IcebergSource.forRowData()
        .tableLoader(tableLoader)
        .assignerFactory(new SimpleSplitAssignerFactory())
        .build();

DataStream<RowData> batch = env.fromSource(
        Source1,
        WatermarkStrategy.noWatermarks(),
        "My Iceberg Source",
        TypeInformation.of(RowData.class));

batch.map(r -> Tuple2.of(r.getLong(0), r.getLong(1)))
        .returns(Types.TUPLE(Types.LONG, Types.LONG))
        .print();

env.execute("Test Iceberg Read");

Streaming 方式

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a");

IcebergSource source2 = IcebergSource.forRowData()
        .tableLoader(tableLoader)
        .assignerFactory(new SimpleSplitAssignerFactory())
        .streaming(true)
        .streamingStartingStrategy(StreamingStartingStrategy.INCREMENTAL_FROM_LATEST_SNAPSHOT)
        .monitorInterval(Duration.ofSeconds(60))
        .build();

DataStream<RowData> stream = env.fromSource(
        Source2,
        WatermarkStrategy.noWatermarks(),
        "My Iceberg Source",
        TypeInformation.of(RowData.class));

stream.map(r -> Tuple2.of(r.getLong(0), r.getLong(1)))
        .returns(Types.TUPLE(Types.LONG, Types.LONG))
        .print();

env.execute("Test Iceberg Read");

6.3 写入数据

目前支持 DataStream 和 DataStream 格式的数据流写入 Iceberg 表。

写入方式支持 append、overwrite、upsert

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);

SingleOutputStreamOperator<RowData> input = env.fromElements("")
        .map(new MapFunction<String, RowData>() {
            @Override
            public RowData map(String s) throws Exception {
                GenericRowData genericRowData = new GenericRowData(2);
                genericRowData.setField(0, 99L);
                genericRowData.setField(1, 99L);

                return genericRowData;
            }
        });

TableLoader tableLoader = TableLoader.fromHadoopTable("hdfs://hadoop1:8020/warehouse/spark-iceberg/default/a");

FlinkSink.forRowData(input)
.tableLoader(tableLoader)
.append()            // append方式
//.overwrite(true)   // overwrite方式
//.upsert(true)       // upsert方式
            ;

env.execute("Test Iceberg DataStream");

写入选项

FlinkSink.forRowData(input)
    .tableLoader(tableLoader)
    .set("write-format", "orc")
    .set(FlinkWriteOptions.OVERWRITE_MODE, "true");

可配置选项如下：

选项	默认值	说明
write-format	Parquet，同 `write.format.default`	写入操作使用的文件格式：Parquet, avro 或 orc
target-file-size-bytes	536870912（512MB，同 `write.target-file-size-bytes`	控制生成的文件的大小，目标大约为这么多字节
upsert-enabled	同 `write.upsert.enabled`
overwrite-enabled	false	覆盖表的数据，不能和 `UPSERT` 模式同时开启
distribution-mode	None，同 `write.distribution-mode`	定义写数据的分布方式: none:不打乱行; hash:按分区键散列分布; range：如果表有 SortOrder，则通过分区键或排序键分配
compression-codec	同 `write.(fileformat).compression-codec`
compression-level	同 `write.(fileformat).compression-level`
compression-strategy	同 `write.orc.compression-strategy`

6.4 合并小文件

Iceberg 现在不支持在 flink sql 中检查表，需要使用 Iceberg 提供的 Java API 来读取元数据来获得表信息。可以通过提交 Flink 批处理作业将小文件重写为大文件：

import org.apache.iceberg.flink.actions.Actions;

// 1.获取 Table对象
// 1.1 创建 catalog对象
Configuration conf = new Configuration();
HadoopCatalog hadoopCatalog = new HadoopCatalog(conf, "hdfs://hadoop1:8020/warehouse/spark-iceberg");

// 1.2 通过 catalog加载 Table对象
Table table = hadoopCatalog.loadTable(TableIdentifier.of("default", "a"));

// 有Table对象，就可以获取元数据、进行维护表的操作
//        System.out.println(table.history());
//        System.out.println(table.expireSnapshots().expireOlderThan());

// 2.通过 Actions 来操作 合并
Actions.forTable(table)
        .rewriteDataFiles()
        .targetSizeInBytes(1024L)
        .execute();

得到Table对象，就可以获取元数据、进行维护表的操作。更多 Iceberg 提供的 API 操作，参考：https://iceberg.apache.org/docs/latest/api/

你可能感兴趣的:(iceberg,Iceberg)

面向现代数据湖仓的开放表格式对比分析：Iceberg、Hudi、Delta Lake与Paimon piekill 大数据平台大数据 spark flink big data 数据仓库
文章目录第一章数据湖的演进：从存储到事务型平台1.1前湖仓时代：ApacheHive的局限性1.2湖仓一体的范式转移第二章架构深度剖析2.1ApacheIceberg：以元数据为中心的设计2.2ApacheHudi：流式优先、时间轴驱动的架构2.3DeltaLake：以事务日志为唯一真相源2.4ApachePaimon：面向实时湖仓的LSM树架构第三章核心能力对比分析3.1事务性与并发控制3.2数
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
Apache Doris 3.0.6 版本正式发布数据库apache
亲爱的社区小伙伴们，ApacheDoris3.0.6版本已于2025年06月16日正式发布。该版本进一步提升了系统的性能及稳定性，欢迎大家下载体验。GitHub下载官网下载行为变更禁止Unique表使用时序Compaction#49905存算分离场景下AutoBucket单分桶容量调整为10GB#50566新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg表格式详
Apache Doris 3.0.6 版本正式发布 SelectDB技术团队 apache 大数据极速分析实时分析数据分析
亲爱的社区小伙伴们，ApacheDoris3.0.6版本已于2025年06月16日正式发布。该版本进一步提升了系统的性能及稳定性，欢迎大家下载体验。GitHub下载官网下载行为变更禁止Unique表使用时序Compaction存算分离场景下AutoBucket单分桶容量调整为10GB新特性Lakehouse支持访问AWSS3TableBuckets中的Iceberg表格式详情请参考文档：Icebe
Iceberg与Hive集成深度 Edingbrugh.南空数据湖 hive 大数据 hive hadoop 数据仓库
一、Iceberg在Hive中的ACID事务实现与实战1.1传统Hive的事务局限性Hive原生仅支持非事务表（Non-ACID），存在以下痛点：不支持行级更新/删除并发写入时数据一致性无法保证无事务回滚机制历史版本查询需手动实现1.2Iceberg为Hive带来的事务能力Iceberg通过以下机制在Hive中实现完整ACID事务：快照隔离（SnapshotIsolation）：每个事务创建独立快
Doris数据集成 Apache Iceberg 猫猫姐 Doris doris iceberg
Doris数据集成ApacheIcebergApacheIceberg是一种开源、高性能、高可靠的数据湖表格式，可实现超大规模数据的分析与管理。它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性。Ap
湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？镜舟科技 StarRocks 存算分离架构实时分析湖仓融合金融科技物化视图元数据
随着数据量爆发式增长，企业数据架构正经历从传统数据仓库向现代数据湖仓一体化的转变。然而，传统数据湖虽然存储成本低，但分析性能不足；数据仓库虽然查询性能优异，但成本高昂且扩展性受限。湖仓融合面临“最后一公里”问题：如何在保证实时性、一致性的同时平衡成本？一、湖仓融合（Lakehouse）的技术演进湖仓融合的技术演进经历了从简单的数据迁移，到联邦查询，再到深度集成的过程。现代数据湖格式如Iceberg
iceberg整合hive（从hive读取iceberg表数据）实践02 黄瓜炖啤酒鸭数据湖相关 Flink实时数仓 zeppelin iceberg hive查询iceberg表 hive iceberg整合
目录实现目标：1，创建hadoopcatalog在zeppelin创建hadoopcatalog2，创建基于hadoop_catalog的iceberg表3,从hadoop_catalog来创建hive表，在hiveshell执行4，向iceberg插入数据验证5，hive查询实现目标：在hive查询iceberg表数据1，创建hadoopcatalog在zeppelin创建hadoopcatal
Databend 产品月报（2025年5月）数据库
五月份的更新来啦！这个月我们为大家带来了不少实用的新功能和性能优化，希望能让你的大数据处理工作更加得心应手。这个月我们一共推出了31个新功能，修复了18个bug，还做了15项性能优化！五月更新亮点重磅功能NgramIndex-让LIKE'%pattern%'查询飞起来，自带bloomfilter加速Iceberg功能增强-新增ORC文件支持，数据缓存和merge-on-read优化AVRO文件支持
Hudi、Iceberg 、 Paimon 数据湖选型对比菜鸟冲锋号数据仓库大数据
Hudi、Iceberg和Paimon是当前数据湖领域的三大主流开源框架，均致力于解决数据湖场景下的增量更新、事务支持、元数据管理、流批统一等核心问题，但设计理念和适用场景存在差异。以下从技术特性、适用场景和选型建议三方面对比分析：一、核心技术特性对比维度HudiIcebergPaimon（原FlinkPaimon）项目定位数据湖存储框架（支持流批写入、增量处理）数据湖表格式（聚焦表管理、元数据与
Doris + Iceberg 构建冷热分层数据湖架构：架构设计与实战指南晴天彩虹雨架构大数据
在海量数据治理与存储演进中，冷热数据分层已成为降本增效的关键策略。本篇将深入探讨如何结合ApacheDoris与ApacheIceberg构建一套高性能、可扩展的数据湖架构，支持冷热数据自动分层、快速查询与灵活扩展。一、背景：为什么需要冷热数据分层？在实际的大数据场景中，数据按照访问频率与实时性可分为：类型特征常见场景热数据最近1小时/1天的数据，查询频繁实时指标、监控、运营分析冷数据近7天、30
推荐干货 | Apache Iceberg 快速入门课程（视频+代码+资料+学习笔记）.zip AI方案2025 Iceberg
ApacheIceberg快速入门课程，包含视频、代码、资料及学习笔记，供大家学习参考。1、Iceberg_课程介绍.mp42、Iceberg简介_概述.mp43、Iceberg简介_特性.mp44、Iceberg简介_其他数据湖框架的对比.mp45、Iceberg存储结构_基本概念.mp46、Iceberg存储结构_查询流程分析.mp47、Iceberg与Hive集成_版本对应关系.mp48、I
Seatunnel系列之：Apache Iceberg sink connector和往Iceberg同步数据任务示例快乐骑行^_^ 大数据 Seatunnel系列 Apache Iceberg sink connector 往Iceberg同步数据任务示例
Seatunnel系列之：ApacheIcebergsinkconnector和往Iceberg同步数据任务示例一、支持的Iceberg版本二、支持的引擎三、描述四、支持的数据源信息五、数据库依赖六、数据类型映射七、Sink选项八、往Iceberg同步数据任务示例一、支持的Iceberg版本1.4.2二、支持的引擎SparkFlinkSeaTunnelZeta三、描述ApacheIceberg的接
Flink+Iceberg搭建实时数据湖实战王知无(import_bigdata) 数据库大数据 hadoop hive mysql
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！第一部分：Iceberg核心功能原理剖析：ApacheIceberg摘自官网：Apache Iceberg is an open table format for huge analytic datasets.可以看到Founders对Iceberg的定位是面向海量数据分析场景的高效存储格式。海量数据分析的场景，
Flink读取Kafka数据写入IceBerg（HiveCatalog）徐一闪_BigData 大数据 flink iceberg
Readmejava8flink1.13kafka3iceberg0.13链路：Kafka->Flink->IceBerg（HiveCatalog）代码importorg.apache.flink.api.common.serialization.SimpleStringSchema;importorg.apache.flink.streaming.api.datastream.DataStrea
AutoMQ x OSS 的 Iceberg 数据入湖的最佳实践
背景在数字化转型进程中，用户交互行为产生的多维度数据已成为企业的重要战略资产。以短视频平台为例，基于用户点赞事件的实时推荐算法能显著提升用户活跃度和平台粘性。这类实时数据主要通过ApacheKafka流处理平台进行传输，通过其扇出（Fanout）机制实现多业务系统的并行消费。企业的数据应用需求呈现双重特性：一方面需要实时流处理能力，另一方面需要依托历史数据进行多维聚合分析。大数据分析技术经过多年演
Debezium系列之：使用Debezium和Apache Iceberg构建数据湖快乐骑行^_^ debezium Debezium系列使用Debezium Apache Iceberg 构建数据湖
Debezium系列之：使用Debezium和ApacheIceberg构建数据湖DebeziumServerIceberg“DebeziumServerIceberg”消费者设置数据复制Upsert模式保留已删除的记录使用Upsert模式追加模式优化批处理大小在数据分析的世界中，数据湖是存储和管理大量数据以满足数据分析、报告或机器学习需求的流行选择。在这篇博客文章中，我们将描述一种构建数据湖的简
数据湖和Apache Iceberg，Apache Hudi，Delta Lake 西土城计划 apache big data 大数据
1什么是数据湖？数据湖这个词目前已经流行开来，逐步被数据相关的从业者接受，可能还有很多人不太清楚它和Hadoop，Hive，Spark这些大数据系统的区别，简单说数据湖是个业务概念，主要是为了区别传统数仓这个概念的（传统数仓的定义：datawarehouse，是用于报告和数据分析的系统，被认为是商业智能的核心组件）。为什么说是“传统数仓”，因为Hadoop于2006年诞生至今已有10多年了，在这期
Apache Iceberg 解析，一文了解Iceberg定义、应用及未来发展镜舟科技 apache Iceberg StarRocks 元数据数据湖湖仓一体数据分析
什么是Iceberg？ApacheIceberg是一种开源的表格式（TableFormat），专为超大规模数据分析场景设计，通过标准化数据存储规范与访问协议，解决了传统数据湖在元数据管理、事务控制、查询性能等方面的核心痛点。以下从六个维度全面解析其技术原理、应用场景与最佳实践。一、为什么需要新的表格式？传统数据湖面临的痛点数据治理与管理能力不足：传统数据湖在数据治理和管理方面存在明显短板，缺乏严格
如何利用 StarRocks 加速 Iceberg 数据湖的查询效率镜舟科技 starrocks 镜舟科技数据湖大数据数据库
数据湖作为一种存储各种类型数据的集中式存储系统，以其灵活性、可扩展性和低成本的优势受到越来越多企业的青睐。然而，数据湖虽然降低了数据存储成本，但在数据分析尤其是实时数据分析场景下，其性能仍存在一定瓶颈。本文将探讨如何利用开源项目StarRocks来提升Iceberg的查询效率，为企业提供更快速、更灵活的数据分析能力。作为StarRocks社区的主要贡献者和商业化公司，镜舟科技深度参与 S
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
架构师论文《论湖仓一体架构及其应用》 pccai-vip 架构软考论文
软考论文-系统架构设计师摘要作为某省级商业银行数据中台建设项目技术负责人，我在2020年主导完成了从传统数据仓库向湖仓一体架构的转型。针对日益增长的支付流水、用户行为埋点及信贷审核影像文件等多模态数据处理需求，原有系统存在存储成本激增、实时分析能力不足等问题。新平台需整合12个核心业务系统数据资源，建设支持实时反欺诈、客户画像分析的高性能数据底座。本项目采用Iceberg+Spark架构实现湖仓一
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj