lifallen

Paimon对比基于消息队列（如Kafka）的传统实时数仓方案的优势

弊端：数据重复 -> 优势：Paimon 主键表原生去重

原方案弊端 (Kafka)

问题: 消息队列（Kafka）是仅支持追加（Append-Only）的日志流。当 Flink 作业发生故障恢复（Failover）或业务逻辑迭代重跑数据时，同样的数据会被再次写入消息队列，形成重复数据。
影响: 下游应用（如DWS层、ADS层或直接对接的BI报表）必须自己实现复杂的去重逻辑，这不仅消耗大量计算资源（“资源消耗至少增加一倍”），而且可能导致作业不稳定。

Paimon 的优势

解决方案: Paimon 提供了主键表（Primary Key Table）。这种表类型基于 LSM 树（Log-structured merge-tree）结构，原生支持 UPSERT (更新或插入) 和 DELETE 操作。
工作原理: 当 Flink 作业将数据写入 Paimon 的主键表时：
- 如果数据的主键已存在，Paimon 会更新该行记录。
- 如果主键不存在，Paimon 会插入新行。
- 因此，即使上游作业重发了数据，Paimon 也能通过主键自动去重，确保表里存储的始终是每个主键对应的最新状态。下游消费者不再需要关心去重问题。

正如文档中所描述的，主键表是 Paimon 的核心功能之一，用于支持大规模的实时更新。

# Overview

If you define a table with primary key, you can insert, update or delete records in the table.

Primary keys consist of a set of columns that contain unique values for each record. Paimon enforces data ordering by
sorting the primary key within each bucket, allowing users to achieve high performance by applying filtering conditions
on the primary key. See [CREATE TABLE]({{< ref "flink/sql-ddl#create-table" >}}).

在 Flink SQL 中创建这样的主键表非常简单：

// ... existing code ...
CREATE TABLE my_table (
    user_id BIGINT,
    item_id BIGINT,
    behavior STRING,
    dt STRING,
    hh STRING,
    PRIMARY KEY (dt, hh, user_id) NOT ENFORCED
);
// ... existing code ...

弊端：DWS 层缺失 -> 优势：Paimon 支持聚合与更新，构建 DWS 层

原方案弊端 (Kafka)

问题: 由于 Kafka 不支持 UPSERT，无法对聚合结果进行原地更新。例如，一个按用户ID统计5分钟窗口消费额的 DWS 层，10:00-10:05 的聚合结果和 10:05-10:10 的聚合结果会作为两条独立的消息存在于 Kafka 中。
影响: 无法构建一个持续更新状态的 DWS 层。下游要么消费这个中间结果流自己再做一次聚合，代价极高；要么跳过 DWS 层，直接将 DWD 数据写入在线存储（如 ClickHouse），把聚合压力和复杂性推给了下游系统。

Paimon 的优势

解决方案: Paimon 的主键表能力完美解决了这个问题。我们可以轻松地在 Paimon 中构建 DWS 层。
工作原理: Flink 聚合任务（例如，每5分钟统计一次用户消费总额）可以将聚合结果 UPSERT 到 Paimon 的 DWS 表中。这张表以用户ID为主键。每次新的聚合结果到来时，它会直接更新对应用户的消费总额，而不是插入一条新纪录。
Changelog 支持: 更重要的是，Paimon 可以为下游生成 changelog（变更日志）。下游系统（如 ClickHouse）可以直接消费这个 changelog 流，轻松地同步最新的聚合结果，而无需处理复杂的合并逻辑。

Paimon 的 merge-engine 机制甚至允许自定义更新逻辑，例如 partial-update（部分更新）或 aggregation（聚合），这为构建 DWS 层提供了极大的灵活性。

// ... existing code ...
- Realtime updates:
  - Primary key table supports writing of large-scale updates, has very high update performance, typically through Flink Streaming.
  - Support defining Merge Engines, update records however you like. Deduplicate to keep last row, or partial-update, or aggregate records, or first-row, you decide.
// ... existing code ...

弊端：No Schema -> 优势：Paimon 提供统一的、可查询的 Schema

原方案弊端 (Kafka)

问题: 存储在Kafka 中的数据（通常是 JSON 字符串）是半结构化的。虽然 Flink 作业在流处理时会解析它，但数据本身在消息队列中没有一个强定义的、可供外部查询的 Schema。
影响: 其他数据消费者（如算法、BI 团队）无法直接查询 DWD 层数据。他们需要自己写程序消费 Kafka，然后重复解析和计算，造成了巨大的资源浪费和协作成本。

Paimon 的优势

解决方案: Paimon 是一个湖仓格式，它将数据以结构化的、带 Schema 的表形式存储。
工作原理: 数据一旦写入 Paimon 表，就拥有了明确的表结构（列名、数据类型等）。这个 Schema 信息会和数据一起被管理。
生态兼容: Paimon 提供了强大的生态兼容性，支持 Flink, Spark, Hive, Trino, Doris 等多种查询引擎。这意味着 BI、算法等团队可以直接使用他们熟悉的 SQL 工具，像查询普通数据库一样查询 Paimon 中的 DWD 和 DWS 表，极大地提升了数据利用效率。

Paimon 的兼容性矩阵展示了其强大的生态整合能力：

// ... existing code ...
| Engine | Version | Batch Read | Batch Write | Create Table | Alter Table | Streaming Write | Streaming Read | Batch Overwrite | DELETE & UPDATE | MERGE INTO | Time Travel |
| :-------------------------------------------------------------------------------: | :-------------: | :-----------: | :-----------: | :-------------: | :-------------: | :----------------: | :----------------: | :---------------: | :---------------: | :----------: | :-----------: |
| Flink | 1.15 - 1.20 | ✅ | ✅ | ✅ | ✅(1.17+) | ✅ | ✅ | ✅ | ✅(1.17+) | ❌ | ✅ |
| Spark | 3.2 - 3.5 | ✅ | ✅ | ✅ | ✅ | ✅(3.3+) | ✅(3.3+) | ✅ | ✅ | ✅ | ✅(3.3+) |
| Hive | 2.1 - 3.1 | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
| Trino | 420 - 440 | ✅ | ✅(427+) | ✅(427+) | ✅(427+) | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
// ... existing code ...

弊端：资源与效率 -> 优势：Paimon 统一流批，简化架构

原方案弊端 (Lambda 架构)

问题: 为了保证数据的最终准确性（例如，通过离线反作弊修正数据），需要维护实时（Flink on Kafka）和离线（ETL on MaxCompute）两套独立的数据链路和代码。
影响: 开发和运维成本翻倍，架构复杂，数据同步和一致性保障困难。

Paimon 的优势

解决方案: Paimon 作为统一存储层，天然支持流式读写和批式读写，是构建流批一体（Unified Batch and Streaming）架构的理想选择。
工作原理:
- 流式写入: Flink 实时作业持续将数据写入 Paimon。
- 批式读/写: 离线作业（如 Spark 或 Flink Batch）可以读取 Paimon 表的最新快照进行批量处理（如反作弊计算），并将修正后的数据写回到同一张 Paimon 表中。
- 统一视图: 无论是实时查询还是离线查询，都访问的是同一份存储，同一张表。这彻底消除了两套系统、两份数据的问题。

在ODS层完成数据解析后，可以将数据反向写入到Paimon中，这正是 Paimon 流批一体能力的完美体现。

Paimon 的架构设计就是为了解决这个问题，提供一个统一的存储底座。

// ... existing code ...
Paimon provides table abstraction. It is used in a way that
does not differ from the traditional database:
- In `batch` execution mode, it acts like a Hive table and
  supports various operations of Batch SQL. Query it to see the
  latest snapshot.
- In `streaming` execution mode, it acts like a message queue.
  Query it acts like querying a stream changelog from a message queue
  where historical data never expires.
// ... existing code ...

总结

痛点	Kafka 方案	Paimon 解决方案
数据重复	Append-only，导致Failover后数据重复	主键表，通过 UPSERT 自动去重
DWS层构建	无 UPSERT，无法原地更新聚合结果	主键表，支持聚合结果的持续更新，可构建DWS层
数据共享	No Schema，下游需重复解析	统一Schema，多引擎可直接用SQL查询，提升协作效率
架构冗余	Lambda架构，流批两套代码和存储	流批一体，统一存储，简化架构，降低开发运维成本

常见优化策略

优化策略主要围绕性能、存储和稳定性三个方面展开，这是构建和维护高性能湖仓系统的核心。

一、性能优化

性能优化的核心目标是提升数据写入和处理的吞杜量，同时降低延迟。

1. 启用异步 Compaction

分析:
- Paimon 基于 LSM 树结构，写入时会产生多个有序的小文件（Sorted Runs）。查询时需要合并这些文件，文件过多会严重影响查询性能。
- Compaction 就是将这些小文件合并成大文件的过程。默认情况下，Compaction 可能和数据写入操作在同一个 Flink Task 中同步或半同步执行，这会占用写入链路的资源，尤其是在写入高峰期，可能导致反压和延迟增加。
- 异步 Compaction (Asynchronous Compaction) 将合并操作与写入操作解耦。写入操作可以快速完成，将合并任务交给独立的机制或在系统负载较低时执行。这极大地提升了写入的吞吐量和稳定性，正如您提到的“节点切换的平均耗时超过 50 秒，而开启后则缩短至 20 秒”。

实现与扩展:

完全异步化: 通过调整特定参数，可以让 Compaction 完全不阻塞写入，最大化写入吞吐量。这适用于对写入性能要求极高，但对数据查询的即时性要求稍低的场景。
```
// ... existing code ...
num-sorted-run.stop-trigger = 2147483647
sort-spill-threshold = 10
lookup-wait = false
// ... existing code ...
```

专用 Compaction 作业: 这是更彻底的解耦方式。可以将主写入作业的 Compaction 完全关闭 ('write-only' = 'true')，然后启动一个独立的、专用的 Flink 作业来负责 Compaction。这样可以为写入和 Compaction 分配独立的资源，互不干扰，实现更精细的资源管理和调优。

// ... existing code ...
    public static final ConfigOption WRITE_ONLY =
            key("write-only")
                    .booleanType()
                    .defaultValue(false)
                    .withFallbackKeys("write.compaction-skip")
                    .withDescription(
                            "If set to true, compactions and snapshot expiration will be skipped. "
                                    + "This option is used along with dedicated compact jobs.");
// ... existing code ...

然后通过 Flink Action 启动专用作业：

// ... existing code ...
/bin/flink run \
    /path/to/paimon-flink-action-{{< version >}}.jar \
    compact \
// ... existing code ...

2. 调整 Checkpoint Interval

分析:
- 在 Flink 流式写入 Paimon 的场景中，Checkpoint 是触发数据从内存刷写到文件系统并生成 Paimon Snapshot 的关键。
- 过于频繁的 Checkpoint (短间隔) 会导致生成大量的小文件，增加文件系统压力和后续 Compaction 的负担。同时，频繁的 Barrier 对齐和状态快照也会消耗大量网络和 CPU 资源，在高吞吐场景下极易引起反压。
- 增大 Checkpoint Interval 可以让数据在内存的 write-buffer 中累积更多，单次刷写生成的文件更大，从而减少小文件数量和 Checkpoint 开销。
实现与扩展:
- 除了增大 execution.checkpointing.interval，还可以调整 execution.checkpointing.max-concurrent-checkpoints 来允许更多的 Checkpoint 并行，提高容错效率。
- Buffer 优化: 配合增大 Checkpoint 间隔，应适当增大 Paimon 的写缓冲 write-buffer-size，并可以开启 write-buffer-spillable，当内存 Buffer 写满时，会先溢写到本地磁盘，而不是直接刷到远程存储，这样可以平滑 Checkpoint 峰值压力，生成更大的最终文件。
```
// ... existing code ...
1. Flink Configuration (`'flink-conf.yaml'/'config.yaml'` or `SET` in SQL): Increase the checkpoint interval
   (`'execution.checkpointing.interval'`), increase max concurrent checkpoints to 3
   (`'execution.checkpointing.max-concurrent-checkpoints'`), or just use batch mode.
2. Increase `write-buffer-size`.
3. Enable `write-buffer-spillable`.
// ... existing code ...
```

3. 调整 Writer 节点资源与并行度

分析:
- Writer 节点的并行度直接决定了数据写入的能力。这个并行度通常应该与 Paimon 表的 bucket 数量相匹配或成倍数关系，以确保数据均匀分布到各个 bucket，避免数据倾斜。
- 在数据回刷或追赶历史数据时，上游数据源的读取速度会很快，此时必须相应地调大 Writer 的并行度来匹配处理能力。
- Writer 节点的内存 (write-buffer-size) 也至关重要，它直接影响单次刷盘的文件大小和 Compaction 的效率。
实现与扩展:
- 动态调整: 虽然分区和 Bucket 数不建议频繁调整，但 Flink 作业的并行度是可以在停机重启时调整的。在数据回刷场景，可以临时调高并行度，完成后再恢复正常值。
- 使用 Flink 托管内存: 为了避免手动管理内存导致 OOM，可以启用 'sink.use-managed-memory-allocator' = 'true'。这样 Paimon Writer 会使用 Flink 的托管内存，由 Flink TaskManager 统一管理和分配，可以提高资源利用率和稳定性。
```
// ... existing code ...
INSERT INTO paimon_table /*+ OPTIONS('sink.use-managed-memory-allocator'='true', 'sink.managed.writer-buffer-memory'='256M') */
SELECT * FROM ....;
```

4. 合理设置分区与 Bucket

分析:
- 分区 (Partition) 是数据物理隔离的第一层，通常基于低基数的列（如日期 dt），用于数据管理和查询过滤。好的分区设计可以极大地提升查询性能，因为查询引擎可以直接跳过不相关的分区目录。
- 桶 (Bucket) 是在分区内对数据进行哈希分桶，是数据读写并行的基本单位。bucket 的数量决定了写入的最大并行度和数据在分区内的分布。
- Rescale 的代价: 修改分区键或 bucket 数需要 ALTER TABLE 后通过 INSERT OVERWRITE 重写数据，这是一个成本很高的操作。因此，在表设计之初就必须对未来的数据量和并发量有充分预估。
实现与扩展:
- 分区策略: 选择更新频率低、且常作为查询条件的列做分区键。例如，按天分区 dt 是最常见的策略。
- Bucket 数估算: Bucket 数应根据分区内的数据量峰值来设定。一个经验法则是，保证每个 Bucket 内单个文件的大小在合理范围（例如 128MB ~ 1GB）。您的例子中“每个分区的bucket num为512”就是一个很好的实践，它为每小时高达 700GB 的数据量提供了足够的写入并行度和数据分布。

二、存储优化

存储优化的核心是控制文件数量，回收无效数据，降低存储成本。

1. 文件生命周期管理 (TTL)

分析:
- Paimon 的每一次提交都会生成一个新的快照 (Snapshot)。为了支持时间旅行 (Time Travel)，旧的快照和对应的数据文件会保留一段时间。
- snapshot.time-retained 和 snapshot.num-retained.min 控制了快照的保留策略。过长的保留时间会导致大量元数据和数据文件堆积。
- changelog-producer 产生的 Changelog 文件也有独立的生命周期管理。
实现与扩展:
- 需要根据业务对数据回溯的需求来设定合理的 TTL。例如，如果业务只需要回溯 3 天的数据，那么 snapshot.time-retained 就不应设置得过长。
- 定期检查和调整 TTL 策略，以平衡数据可恢复性和存储成本。

2. 小文件合并

分析:
- 流式写入不可避免地会产生小文件。除了前面提到的异步 Compaction 和专用 Compaction 作业，Paimon 还提供了其他机制。
- precommit-compact: 在文件提交到快照之前进行一次合并，可以有效减少最终生成的 changelog 文件数量。
- full-compaction: 全量合并，可以将一个分区/桶内的所有文件合并成一个或少数几个文件，对查询性能提升最大。可以通过 'full-compaction.delta-commits' 定期触发。
实现与扩展:
- Sort Compact: 在执行 Compaction 时，可以指定按某些列 (Z-Order 或普通排序) 对数据进行排序。这可以极大地优化基于这些列的范围查询或点查性能，因为数据在物理上是连续存储的，可以最大化数据跳过的效果。
```
// ... existing code ...
CALL sys.compact(
   `table` => 'database_name.table_name', 
   partitions => 'partition_name', 
   order_strategy => 'z-order',
   order_by => 'col1,col2'
);
// ... existing code ...
```
- 外部治理服务: 对于大型湖仓平台，可以引入如 Apache Amoro 这样的外部治理服务，它能提供更智能、自动化的表维护（Self-Optimizing），包括小文件合并、数据过期等。

3. 清理废弃/孤立文件

分析:
- 作业异常终止或旧版本 Paimon 的 Bug 可能会导致产生一些不被任何快照引用的孤立文件。这些文件占用了存储空间且不会被自动清理。
实现与扩展:
- Paimon 提供了 expire_snapshots 和 drop_partition 等 Action，可以用来清理快照和分区。
- 社区也提供了相应的工具或讨论来识别和清理孤立文件。编写定时脚本，定期执行 Paimon 提供的清理命令，是一种有效的运维实践。

三、稳定性优化

稳定性优化的核心是保障作业在各种异常情况下（尤其是高负载时）的健壮性和可恢复性。

1. 启用 Consumer

分析:
- 当 Flink 作业从 Paimon 消费数据时，它会从某个快照开始读取。如果这个快照因为 TTL 过期而被删除了，作业就无法从该点恢复。
- Consumer 机制允许为某个消费作业（由 consumer-id 标识）“锁定”一个快照。这个被锁定的快照及其之后的所有快照都不会被 TTL 机制自动删除，直到 Consumer 前进到新的快照。
- 这极大地增强了下游消费作业的可恢复性，但代价是可能会保留更多的快照和数据文件，增加了存储成本。
实现与扩展:
- 这是一个典型的恢复能力与存储成本之间的权衡。对于关键的下游应用，启用 Consumer 是必要的。对于非核心应用，可以不启用，或定期手动重置消费位点。

2. 调整 TM (Task Manager) 和 Committer 资源

分析:
- TM 资源: Paimon Writer 的内存需求与数据记录大小、更新频率、Bucket 数量等密切相关。内存不足是导致 OOM 和作业不稳定的主要原因。
- Committer 节点: 这是 Flink 写入 Paimon 的最后一步，负责将所有 Task 生成的 manifest 文件合并，并生成最终的 snapshot 文件。当一次 Checkpoint 写入的分区和文件非常多时，Committer 会成为瓶颈，需要大量的内存来持有这些元数据信息，也需要足够的 CPU 来完成合并。
实现与扩展:
- 精细化资源管理: Flink 1.18 之后默认开启了细粒度资源管理。可以利用这个特性为 Paimon 的 Committer 算子单独配置更高的内存和 CPU，而无需增加整个 TaskManager 的资源，从而实现更高效的资源利用。
```
// ... existing code ...
You can use fine-grained-resource-management of Flink to increase committer heap memory only:
1. Configure Flink Configuration `cluster.fine-grained-resource-management.enabled: true`. (This is default after Flink 1.18)
2. Configure Paimon Table Options: `sink.committer-memory`, for example 300 MB, depends on your `TaskManager`.
   (`sink.committer-cpu` is also supported)
// ... existing code ...
```
- 经验公式与监控: 结合 Paimon 社区提供的经验公式和实际的监控数据（如内存使用率、GC 时间、反压情况），持续迭代和优化资源配置。

总结

结合 Paimon 的文档和特性，我们可以看到这些策略背后都有其深刻的技术原理支撑。核心思想可以归纳为：

解耦与异步: 将耗时的 Compaction 操作与主写入链路解耦，是提升写入性能和稳定性的关键。
批处理思想: 在流处理中引入批处理的思想，通过增大 Checkpoint 间隔和 Buffer，将多次小操作合并为一次大操作，以摊销固定开销。
预估与规划: 在表设计阶段充分预估未来数据量，合理规划分区和 Bucket，避免后期高昂的调整成本。
权衡与取舍: 在性能、成本、稳定性、数据时效性之间做出权衡。例如，Consumer 提升了恢复能力但增加了存储成本；高压缩率降低了存储但增加了 CPU 开销。
精细化运维: 利用专用作业、细粒度资源管理等高级特性，对不同组件进行针对性优化，实现对整个系统的精细化控制。

这些策略共同构成了一套行之有效的 Paimon 湖仓优化方法论。

补充Paimon快照存储占用

快照（Snapshot）的本质是一个元数据文件。

Paimon 的数据组织是一个清晰的层级结构，正如文档中图示的那样： Snapshot -> Manifest List -> Manifest -> Data File

Snapshot 文件: 是表的某个时间点版本的入口。它本身很小，是一个 JSON 文件，记录了这个版本包含哪些 Manifest List 文件，以及其他元数据。您正在查看的 Snapshot.java 文件就定义了它的结构。
Manifest List / Manifest 文件: 也是元数据文件，它们像目录一样，逐层记录了哪些数据文件（Data File）属于这个快照版本，以及这些数据文件的状态（是新增的还是被删除的）。
Data File: 这才是真正存储着表数据的物理文件（例如 Parquet 文件）。

所以，一个快照通过层层指向，最终“引用”了一批数据文件。

逻辑删除 vs 物理删除

当对表进行更新、删除或执行 Compaction（合并）操作时，Paimon 并不会立即去物理删除旧的数据文件。它会执行一个逻辑删除：

生成新的数据文件。
创建一个新的 Snapshot。
在这个新 Snapshot 的 Manifest 文件中，将旧的数据文件标记为 DELETE，将新的数据文件标记为 ADD。

此时，旧的 Snapshot 依然存在，并且它仍然指向那些被“逻辑删除”的旧数据文件。这就是 Paimon 实现时间旅行（Time Travel） 的基础——只要旧快照还在，就可以随时回到过去的数据版本。

文档 docs/content/learn-paimon/understand-files.md 中对此有清晰的描述：

Paimon maintains multiple versions of files, compaction and deletion of files are logical and do not actually delete files. Files are only really deleted when Snapshot is expired.

简单来说：Compaction 等操作只做标记，不做真删除。真正的删除由快照过期来触发。

禁止删除有快照指向的文件

只要有一个活跃的、未过期的快照还在引用某个数据文件，这个数据文件就是安全的，绝对不会被删除。物理删除操作只会发生在那些“无主”的文件上——即所有引用它的快照都已经过期并被清除了。

这个机制确保了数据安全性和时间旅行能力，同时通过 TTL 自动回收不再需要的历史数据，从而控制存储成本。

这个过程的实现主要在 SnapshotDeletion.java 这个类中，它负责具体的清理逻辑。

// ... existing code ...
public class SnapshotDeletion extends FileDeletionBase {

// ... existing code ...
    @Override
    public void cleanUnusedDataFiles(Snapshot snapshot, Predicate skipper) {
        if (changelogDecoupled && !produceChangelog) {
            // Skip clean the 'APPEND' data files.If we do not have the file source information
            // eg: the old version table file, we just skip clean this here, let it done by
            // ExpireChangelogImpl
            Predicate enriched =
                    manifestEntry ->
                            skipper.test(manifestEntry)
                                    || (manifestEntry.fileSource().orElse(FileSource.APPEND)
                                            == FileSource.APPEND);
            cleanUnusedDataFiles(snapshot.deltaManifestList(), enriched);
        } else {
            cleanUnusedDataFiles(snapshot.deltaManifestList(), skipper);
        }
        cleanUnusedDataFiles(snapshot.baseManifestList(), skipper);
    }
// ... existing code ...

这个类中的方法会遍历过期快照的 deltaManifestList 和 baseManifestList，收集文件列表，然后执行清理。

快照 TTL 如何触发物理删除

快照 TTL（Time-To-Live，生命周期）是如何处理多版本数据删除的？

定义过期策略: 可以配置快照的保留策略，比如 snapshot.time-retained (保留时长) 和 snapshot.num-retained.min (最小保留数量)。
识别过期快照: 当一个快照的存活时间超过了您设定的 TTL，它就会被 Paimon 的过期机制（Expire）识别为“已过期”。
清理过程:
- 过期程序（ExpireSnapshots）会启动，它首先会删除这些过期的 snapshot JSON 文件本身。
- 接着，它会读取这些过期快照所引用的 Manifest 文件，列出所有被这些过期快照“逻辑删除”的数据文件。
- 最关键的一步：程序会检查这个列表中的每一个数据文件，确认它是否还被任何一个“未过期”的（即活跃的）快照所引用。
- 只有当一个数据文件不再被任何活跃快照引用时，它才会被物理删除。

你可能感兴趣的:(Paimon,大数据,数据库,数据结构,java,分布式,apache,数据仓库)

移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
包含日志获取webshell 陈望_ning
日志文件关闭：Apache目录下的httpd.conf文件#ErrorLog"logs/error.log"#CustomLog"logs/access.log"common加#号为注释不产生日志文件如果去掉#将会在Apache/logs/目录下产生日志文件linux:access_logerror_logwindows:access.logerror.logaccess_log每一行记录了一次网
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
第二十二天（数据结构，无头节点的单项链表）肉夹馍不加青椒 c语言数据结构
线性表：一个线性表里面可以是任意的数据元素，但是同一个线性表里面数据应该是同类型的1存在一个/唯一被称为第一个节点的节点2存在一个/唯一被称为最后一个节点的节点3除了第一个以外，每一个元素都有一个前驱节点4除了最后一个，每一个元素都有一个后继节点满足以上性质，这个表就被称为线性表数组就是一个线性表想实现线性表的保存，我们需要考虑下面的事情1元素要保存2元素与元素之间的序偶关系谁是前面的谁是后面的我
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Paimon对比基于消息队列（如Kafka）的传统实时数仓方案的优势

弊端：数据重复 -> 优势：Paimon 主键表原生去重

弊端：DWS 层缺失 -> 优势：Paimon 支持聚合与更新，构建 DWS 层

弊端：No Schema -> 优势：Paimon 提供统一的、可查询的 Schema

弊端：资源与效率 -> 优势：Paimon 统一流批，简化架构

总结

常见优化策略

一、 性能优化

1. 启用异步 Compaction

2. 调整 Checkpoint Interval

3. 调整 Writer 节点资源与并行度

4. 合理设置分区与 Bucket

二、 存储优化

1. 文件生命周期管理 (TTL)

2. 小文件合并

3. 清理废弃/孤立文件

三、 稳定性优化

1. 启用 Consumer

2. 调整 TM (Task Manager) 和 Committer 资源

总结

补充Paimon快照存储占用

逻辑删除 vs 物理删除

禁止删除有快照指向的文件

快照 TTL 如何触发物理删除

你可能感兴趣的:(Paimon,大数据,数据库,数据结构,java,分布式,apache,数据仓库)

一、性能优化

二、存储优化

三、稳定性优化