禹鼎侯

Apache Doris 数据库有哪些应用场景？

缘起

首先声明，本人无意叛变，依然是ClickHouse的忠实信徒。

对于Doris，一直听圈内的人在说，吹得神乎其神，但到底有多强，从来没有真正的去尝试一把。

直到这次，被人狠狠上了一课。

在一次全文检索的模糊查询的场景PK中，ClickHouse一败涂地，让本人很是没面子，咳咳，大哥被人欺负了，这能忍？

一直知道Doris在多表join方面很强，没想到在全文检索也能弯道超车，这实在是猝不及防啊。

啥也别说了，盘他！

咱就是说，知己知彼，方能百战不殆。就算要死，也得死得明白不是？何况咱的目的是接近它，了解它，成为它，并打败它。

Doris到底是个啥

首先不得不说，Doris有完备的中文版文档，这对于我这种英语渣来说，简直太有诱惑力了。不得不说，在鲨人诛心方面，还是Doris玩得溜哇。

Doris的整体架构分为两大部分，FE和BE。

FE使用Java语言实现，自带前端页面(前端代码为vue3)。主要用来做数据接入，查询解析，元数据管理，节点管理等。

BE使用C++实现，主要用来存储和查询。

简单来说，它把职责划分得很清楚，所有的调度，交互都交给了FE，BE成了完完全全的工具人，FE让我存我就存，让我查我就查，查出来的数据怎么用，怎么返回，咱不关心。

打个比方，FE就是产品经理，负责出设计出需求，BE就是苦逼的打工码农，干活，背锅，一样不落。BE唯一的价值就是它的计算资源和存储资源。

除了FE和BE两大模块之外，Doris还提供了一个叫做Brokers的模块。这个组件对于Doris来说不是必须的。但是提供一定的扩展能力，如实现从HDFS、BOS、AFS导入数据等。它是一种异步的导入方式，因为这个组件是用Java写的，资源占用相对来说比较高，在离线数据大批量导入场景，甚至比Spark Load要消耗更多的资源。所以对于这个组件，我的建议是，有"SPA"上"SPA"，没"SPA"咱还是"Bro"。

编译

为了简化流程，我们使用官方提供的docker编译镜像。

下载镜像：

docker pull apache/doris:build-env-ldb-toolchain-latest

进入容器：

docker run --rm -w /var/src -v `pwd`/build/.m2:/root/.m2 -v `pwd`:/var/src -it apache/doris:build-env-ldb-toolchain-latest bash

上述命令中，我们将.m2目录从容器里挂载出来，并将本地的源码挂载到容器内部。这样做的好处是可以让编译的产物（包括临时产物）都留在本地，下次编译时无需重复下载依赖。（Java的maven依赖下载非常耗时）

直接执行 build.sh。

./build.sh

整个编译过程耗时接近一个半小时，相对来说还算可以接受的。

编译完成后，产物在output目录中：

友情提醒：对于没有二次开发需求的用户，建议直接下载官方提供的release版本使用即可。

集群部署

集群部署架构初步规划如下：

角色	节点	ip
FE	leader	192.168.101.94
BE	node1	192.168.101.93
BE	node2	192.168.101.94
BE	node3	192.168.101.96

Doris的官方安装包分为avx2和非avx2版本，根据自己的CPU支持情况下载即可。整个安装包2.8个G，请在网络环境比较好的时候下载。

解压后有三个文件夹：

fe文件夹用于fe部署，be文件夹用于be部署，extensions文件夹是一些扩展，如hdfs的brokers部署，可以先不用管。

FE部署

进入fe文件夹，修改配置文件：

修改conf/fe.conf：

priority_networks = 192.168.101.0/24 # CIDR方式寻址，fe集群之间，fe 与be之间通讯的关键， 可以写多组

# 数据目录
meta_dir = ${DORIS_HOME}/doris-meta

# 端口
http_port = 58030    # 前端页面端口
rpc_port = 59020  # thrift server 端口
query_port = 59030   # 查询的端口， mysql client可以使用该端口连接上Doris
edit_log_port = 59010  # FE集群之间通信的端口

端口需要看一下本地有没有被占用，尽量找没有占用的端口。由于我部署时默认的8030已被本地的hadoop应用占用，所以使用了58030，如果默认端口没有被占用，使用默认端口即可。

启动应用：

bin/start_fe.sh --daemon

验证fe是否成功启动：

[root@master94 fe]# curl http://192.168.101.94:58030/api/bootstrap
{"msg":"success","code":0,"data":{"replayedJournalId":0,"queryPort":0,"rpcPort":0,"version":""},"count":0}

或直接登录前端页面：

http://192.168.101.94:58030/login

显示如下页面，说明部署fe成功：

默认登录用户为 root，密码为空。

登录进去后页面如图所示：

BE部署

修改配置文件：

修改 conf/be.conf:

priority_networks = 192.168.101.0/24 #需要和fe配置一致

be_port = 59060 # 和FE通讯的端口，用来接收FE的请求
webserver_port = 58040 # http端口
heartbeat_service_port = 59050 # 心跳端口，用来接收FE的心跳
brpc_port = 58060 # BE之间通讯

# storage_root_path = ${DORIS_HOME}/storage
storage_root_path = /data01/app/apache-doris-2.0.3-bin-x64/data/ssd,medium:SSD;/data01/app/apache-doris-2.0.3-bin-x64/data/hdd,medium:HDD
# HDD 和 SSD 并不是真的固态盘和机械盘，只需要有相应的目录即可，SSD代表热数据目录，HDD代表冷数据目录，用于BE数据的冷热机制

设置JAVA_HOME：

修改bin/start_be.sh，在脚本第一行增加:

export JAVA_HOME=/usr/java/jdk1.8.0_201

以上操作在所有需要部署BE的节点上都要操作一遍。

将所有的BE节点加入到FE中：

从FE的页面操作：

进入Playground页面，执行如下SQL：

ALTER SYSTEM ADD BACKEND "192.168.101.93:59050";

其中， 192.168.101.93为BE的节点IP，有几个节点就需要增加几次；需要注意的是该IP需要与IP匹配。

59050为heartbeat_service_port，根据配置文件填写即可。

如下图所示：

通过上面的方式，将192.168.101.93和192.168.101.94都添加进去。

从命令行操作：

我们可以使用mysql的client登陆到Doris的FE：

mysql -h 192.168.101.94 -P 59030 -uroot

192.168.101.94指的是FE的地址。

59030是FE配置的query_port。

登录进去后，执行相同的SQL语句。

我们使用这种方式将192.168.101.96加进去：

[root@master94 be]# mysql -h 192.168.101.94 -P 59030 -uroot
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 2
Server version: 5.7.99 Doris version doris-2.0.3-rc06-37d31a5

Copyright (c) 2000, 2023, Oracle and/or its affiliates.

Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql> ALTER SYSTEM ADD BACKEND "192.168.101.96:59050";
Query OK, 0 rows affected (0.01 sec)

启动BE：

sysctl -w vm.max_map_count=2000000
bin/start_be.sh --daemon

验证BE是否正常启动

在FE的web页面执行SQL： SHOW PROC '/backends';

当看到Alive均为true，集群即部署成功。

简单操作验证

创建数据库：

create database demo;

创建表：

use demo;

CREATE TABLE IF NOT EXISTS demo.example_tbl
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
)
AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 1
PROPERTIES (
    "replication_allocation" = "tag.location.default: 1"
);

准备数据：

10000,2017-10-01,北京,20,0,2017-10-01 06:00:00,20,10,10
10000,2017-10-01,北京,20,0,2017-10-01 07:00:00,15,2,2
10001,2017-10-01,北京,30,1,2017-10-01 17:05:45,2,22,22
10002,2017-10-02,上海,20,1,2017-10-02 12:59:12,200,5,5
10003,2017-10-02,广州,32,0,2017-10-02 11:20:00,30,11,11
10004,2017-10-01,深圳,35,0,2017-10-01 10:00:15,100,3,3
10004,2017-10-03,深圳,35,0,2017-10-03 10:20:22,11,6,6

将上面的数据保存在test.csv中。

导入数据：

curl  --location-trusted -u root: -T test.csv -H "column_separator:," http://127.0.0.1:58030/api/demo/example_tbl/_stream_load

执行完结果如下：

[root@master94 apache-doris-2.0.3-bin-x64]# curl  --location-trusted -u root: -T test.csv -H "column_separator:," http://127.0.0.1:58030/api/demo/example_tbl/_stream_load
{
    "TxnId": 2,
    "Label": "af5b1ad2-a86b-4dac-a1b8-ba91e950fc02",
    "Comment": "",
    "TwoPhaseCommit": "false",
    "Status": "Success",
    "Message": "OK",
    "NumberTotalRows": 7,
    "NumberLoadedRows": 7,
    "NumberFilteredRows": 0,
    "NumberUnselectedRows": 0,
    "LoadBytes": 399,
    "LoadTimeMs": 300,
    "BeginTxnTimeMs": 25,
    "StreamLoadPutTimeMs": 211,
    "ReadDataTimeMs": 0,
    "WriteDataTimeMs": 8,
    "CommitAndPublishTimeMs": 53
}

查询数据

关于Doris集群相关说明

Doris集群里并没有集群名的概念。其中，FE集群和BE集群是互相独立，互不干扰的。

你可以这么理解：FE集群相当于CK中的zookeeper集群，BE集群才是真正的数据库集群。

与zookeeper类似，FE采用了类似Raft的选举机制，分为三类角色，分别为Leader， Follower， Oberserver。

一般可使用3 * Follower + n * Oberserver 的架构来保证FE集群的读写高可用。

Oberserver 是只读的扩展节点，可以通过水平扩展的方式来增加读的能力。

Doris集群没有分片和副本的概念。它有一点类似于kafka集群的机制，分片和副本是针对表维度的。也就是说，每张表，你可以设置不同的分片和副本数。

Doris的集群扩缩容非常简单，几乎不需要考虑配置的同步问题，以及元数据的同步的问题，仅需要一个命令就可以实现。

FE增加节点：

#扩容FE节点，可以将新节点添加为follower
ALTER SYSTEM ADD FOLLOWER "fe_host:edit_log_port";

#或新节点添加为observer
ALTER SYSTEM ADD OBSERVER "fe_host:edit_log_port";

BE增加节点:

ALTER SYSTEM ADD BACKEND "be_host:heartbeat_service_port";

增加节点后，集群内部会自动进行数据的再均衡。

删除节点也很简单，只需要将上述SQL的ADD换成DECOMMISSION即可（FE使用DROP下线节点）。

由上面的操作可知，BE之间其实是互相不可见的，BE的集群统一通过FE来调度，因此不存在BE之间互相同步数据带来的资源消耗。

Doris 常见概念介绍

数据模型

Doris的表也有Engine的概念，但是Doris的Engine和ClickHouse的表Engine不太一样。

Doris的Engine主要用来区分数据源的，比如OLAP、MySQL、ES、BROKER等。只有OLAP这个engine是由Doris自己负责数据的存储和管理。它也是默认的engine。

而真正和ClickHouse中表engine可以类比的概念则是数据模型。它决定了Doris在存储数据时，在内存的分布形式。

Doris提供了三类数据模型。

数据模型
Aggregate	数据按key做聚合	聚合类型包括SUM、REPLACE、MAX、MIN、REPLACE_IF_NOT_NULL、HLL_UNION、BITMAP_UNION等，支持agg_state操作。会丢失明细数据。
Unique	数据按主键唯一	分merge_on_read和merge_on_write两种。merge_on_read可以看成是特殊的Aggregate模型，相当于按照key做replace，查询性能比较慢；merge_on_write是在插入时即完成了去重，查询性能高。
Duplicate	数据可重复	分为排序和不排序两类。数据可重复，不会丢失明细数据。类似clickhouse中的原生Mergetree。

bucket、tablet、partition

Doris的表分为两层结构，分别为分区和分桶。

每个分桶文件就是一个数据分片（tablet）。tablet是数据划分的最小逻辑单元。各个tablet之间的数据在物理上独立，多个tablet组成一个partition，所以各partition之间的数据在物理上也是独立的。多个partition组成了一张表。

不同于ClickHouse，Doris没有本地表和分布式表的概念。它的查询是由FE调度，在各个BE节点上查询后进行汇总的，因此每次查询都是分布式查询。数据的分布由hash key保证。

DISTRIBUTED BY HASH(`user_id`) BUCKETS 16

partition可以按range分区和list分区。

range分区即是指按时间列进行分区，语法如下所示：

PARTITION BY RANGE(`date`)
(
    PARTITION `p201701` VALUES LESS THAN ("2017-02-01"),
    PARTITION `p201702` VALUES LESS THAN ("2017-03-01"),
    PARTITION `p201703` VALUES LESS THAN ("2017-04-01")
)

如果导入的数据不在表的分区范围内，则是无法导入的。

上述这种静态分区是非常不灵活的，只适用于存量数据的性能测试场景。在不断有实时数据生成的场景，是不适合的，此时我们可以采用动态分区的方式：

PROPERTIES (
  "dynamic_partition.enable" = "true",
  "dynamic_partition.time_unit" = "DAY",
  "dynamic_partition.start" = "-30",
  "dynamic_partition.end" = "3",
  "dynamic_partition.prefix" = "p",
  "dynamic_partition.create_history_partition"="true",
  "replication_num" = "1"
);

如上参数说明如下：

dynamic_partition.enable：开启动态分区开关
dynamic_partition.time_unit：时间单位，可以是hour、day、week、month、year
dynamic_partition.start：以当前时间为基准，往前保留多少个分区，多余的分区会被删除掉
dynamic_partition.end：以当前时间为基准，往后新创建多少个分区
dynamic_partition.prefix：动态分区的前缀
dynamic_partition.create_history_partition：是否创建历史分区

list分区，就是通过key进行分类了，相同的key的数据自动落在同一个分区内，语法如下：

PARTITION BY LIST(`city`)
(
    PARTITION `p_cn` VALUES IN ("Beijing", "Shanghai", "Hong Kong"),
    PARTITION `p_usa` VALUES IN ("New York", "San Francisco"),
    PARTITION `p_jp` VALUES IN ("Tokyo")
)

Doris表的副本数指定是在建表时指定的，因此每张表可以有不同的副本数。

PROPERTIES
    (
        "replication_num" = "3"
    );

如果不指定，默认副本数为3。由Doris自己保证数据在各个BE的均匀分布，如下图所示。

如果BE节点发生了扩容，数据也会进行重新均衡，当然均衡的基本单位是整个tablet移动。

因此，单个tablet不建议太大，否则会影响数据查询和副本迁移的性能。当然也不建议太小，否则聚合效果不佳，建议单个tablet在1-10G之间，理论上是可以没有上限的。

tablet的数量 = partition数量 * bucket数量 * 副本数。

partition内bucket的数量一旦指定就不能更改了，因此在指定bucket数量时，应充分考虑到集群后续扩容的情况。

索引介绍

Doris的索引分类两类。

一类是内建的索引，包括前缀索引和ZoneMap索引。内建索引不需要显式创建。

另一类是二级索引，包括倒排、布隆过滤器、bitmap索引等，从概念上来说，和ClickHouse的跳数索引类似。

前缀索引

ZoneMap索引是在列存格式上，自动维护每一列的索引信息，包括MinMax、Null值等，没有太多可以扩展讲解的东西。

重点来看前缀索引。

前缀索引是在排序的基础上，根据给定前缀列，快速查询数据的索引方式。

Doris默认会取表结构的前36个字节作为前缀索引列，特例是遇到VARCHAR自动截止。

这就要求我们在建表时，合理编排字段的顺序，有助于加速查询效率。

如下面的示例：

CREATE TABLE IF NOT EXISTS demo.example_tbl
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
)
AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 1
PROPERTIES (
    "replication_allocation" = "tag.location.default: 1"
);

上例中，前缀索引就是 user_id(8字节) + date(3字节) + city(20)字节，虽然说前三个字段没有达到36字节，但是由于遇到了varchar，所以自动截止，不再往下了。

如果我们查询where age = 20，那么就不会走到前缀索引。其查询效率远远比不上where user_id = 1001 and age = 20（走到了前缀索引）。

有人肯定有疑问了，where条件千变万化，我怎么能保证一定能命中前缀索引呢？只有36字节的限制实在是太小了。不可能囊括所有查询场景。

的确如此，所以Doris推出了rollup的概念，可以通过rollup来调整前缀索引，使得常用的查询都能命中前缀索引，从而加速查询。这点我们在后面介绍rollup的时候再说。

倒排索引

是的，你没有看错。这个才是原汁原味的倒排索引。

相比于ClickHouse里的inverted，Doris的倒排，才是真正的大杀器。这也是为什么本文迫不及待想要了解Doris的主要原因。

与Doris的inverted比起来，ClickHouse的倒排索引粗陋、简单，更像一个还未进化成熟的小玩具。

语法如下：

CREATE TABLE table_name
(
  columns_difinition,
  INDEX idx_name1(column_name1) USING INVERTED [PROPERTIES("parser" = "english|unicode|chinese")] [COMMENT 'your comment']
  INDEX idx_name2(column_name2) USING INVERTED [PROPERTIES("parser" = "english|unicode|chinese")] [COMMENT 'your comment']
  INDEX idx_name3(column_name3) USING INVERTED [PROPERTIES("parser" = "chinese", "parser_mode" = "fine_grained|coarse_grained")] [COMMENT 'your comment']
  INDEX idx_name4(column_name4) USING INVERTED [PROPERTIES("parser" = "english|unicode|chinese", "support_phrase" = "true|false")] [COMMENT 'your comment']
  INDEX idx_name5(column_name4) USING INVERTED [PROPERTIES("char_filter_type" = "char_replace", "char_filter_pattern" = "._"), "char_filter_replacement" = " "] [COMMENT 'your comment']
  INDEX idx_name5(column_name4) USING INVERTED [PROPERTIES("char_filter_type" = "char_replace", "char_filter_pattern" = "._")] [COMMENT 'your comment']
)
table_properties;

其中：

parser：分词器，不指定代表不分词。
- english: 英文分词，用空格和标点进行分词
- chinese：中文分词，性能比english低
- unicode：中英文混合场景
parser_mode：分词模式
- fine_grained：细粒度模式
- coarse_grained：粗粒度模式（默认模式）
support_phrease：用于指定是否支持match_phrease短语查询加速
- true为支持，但是需要更多存储空间
- false为不支持，更省存储空间，可以使用match_all来查询多个关键字（默认配置）
char_filter：在分词前对字符串提前处理
- char_filter_type：处理类型（当前仅支持char_replace）
  - char_replace：将pattern中的字符做替换
    - char_fileter_pattern：需要被替换的字符数组
    - char_filter_replacement：替换后的字符数组，可以不用替换，默认是空格

对已有表增加倒排索引，需要显式物化，才能对存量数据生效。物化的语法如下：

BUILD INDEX index_name ON table_name [PARTITIONS(partition_name1, partition_name2)];

我们翻阅Doris源码，来探究一下Doris的分词原理。可以看到源码里，对分词器一共分成了三种类型，分别为standard(unicode)、simple(english)和chinese。具体的实现还是直接使用了lucence的分词逻辑，因此可以达到和ES相差无几的效果。

//be/src/olap/rowset/segment_v2/inverted_index_reader.cpp
std::unique_ptr InvertedIndexReader::create_analyzer(
        InvertedIndexCtx* inverted_index_ctx) {
    std::unique_ptr analyzer;
    auto analyser_type = inverted_index_ctx->parser_type;
    if (analyser_type == InvertedIndexParserType::PARSER_STANDARD ||
        analyser_type == InvertedIndexParserType::PARSER_UNICODE) {
        analyzer = std::make_unique();
    } else if (analyser_type == InvertedIndexParserType::PARSER_ENGLISH) {
        analyzer = std::make_unique>();
    } else if (analyser_type == InvertedIndexParserType::PARSER_CHINESE) {
        auto chinese_analyzer =
                std::make_unique(L"chinese", false);
        chinese_analyzer->initDict(config::inverted_index_dict_path);
        auto mode = inverted_index_ctx->parser_mode;
        if (mode == INVERTED_INDEX_PARSER_COARSE_GRANULARITY) {
            chinese_analyzer->setMode(lucene::analysis::AnalyzerMode::Default);
        } else {
            chinese_analyzer->setMode(lucene::analysis::AnalyzerMode::All);
        }
        analyzer = std::move(chinese_analyzer);
    } else {
        // default
        analyzer = std::make_unique>();
    }
    return analyzer;
}

上述代码中，英文分词采用的是simple的分词器，其分词逻辑非常简单：

template
bool SimpleTokenizer::isTokenChar(const T c) const {
    //return _istalnum(c)!=0;
    return (c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z') || (c >= '0' && c <= '9');
}

中文分词则是从本地的dict中读取的，本地的路径通过inverted_index_dict_path来配置，默认是在dict目录下，我们打开be的dict目录，可以看到如下内容：

可以看到，Doris使用的中文分词器是大名鼎鼎的jieba分词。并在初始化阶段，将所有的字典都加载进去。

static cppjieba::Jieba& getInstance(const std::string& dictPath = "") {
        static cppjieba::Jieba instance(dictPath + "/" + "jieba.dict.utf8",
                                        dictPath + "/" + "hmm_model.utf8",
                                        dictPath + "/" + "user.dict.utf8",
                                        dictPath + "/" + "idf.utf8",
                                        dictPath + "/" + "stop_words.utf8");
        return instance;
    }

其中：

jieba.dict.utf8：最大概率法分词
hmm_model.utf8：隐式马尔科夫分词
idf.utf8：在KeywordExtractor中，使用的是经典的TF-IDF算法，所以需要这么一个词典提供IDF信息
stop_words.utf8：停用词词典

Unicode采用standard分词，其逻辑主要是利用flex词法解析器去解析stop_word。

lucence standard95下包含的stop_word包含以下内容：

static std::unordered_set stop_words = {
    "a",    "an",   "and",  "are",  "as",   "at",    "be",   "but",   "by",
    "for",  "if",   "in",   "into", "is",   "it",    "no",   "not",   "of",
    "on",   "or",   "such", "that", "the",  "their", "then", "there", "these",
    "they", "this", "to",   "was",  "will", "with"};

由于是按照unicode进行分词的，所以这种分词几乎支持所有的语言类型，包括中文、英文、韩文、日文、emoji表情等，所有类型列举如下：

 public:
  static constexpr int32_t WORD_TYPE = 0; //单词
  static constexpr int32_t NUMERIC_TYPE = 1; // 数字
  static constexpr int32_t SOUTH_EAST_ASIAN_TYPE = 2; //东南亚
  static constexpr int32_t IDEOGRAPHIC_TYPE = 3;    //表意文字
  static constexpr int32_t HIRAGANA_TYPE = 4;   //日语
  static constexpr int32_t KATAKANA_TYPE = 5;   // 片假名
  static constexpr int32_t HANGUL_TYPE = 6;     // 韩文
  static constexpr int32_t EMOJI_TYPE = 7;      //emoji表情

但是因为其是要实时通过词法解析的，所以从效率上来讲，肯定没有纯english的快。

BloomFilter

BloomFilter索引的概念在clickhouse中也有，所以此处就不深入介绍了。

其语法如下：

PROPERTIES (
"bloom_filter_columns"="saler_id,category_id",
)

我们只需要指定字段即可，而无需指定bloom filter的长度和hash函数的个数（和clickhouse的bloom filter的二级索引相同）。

它可以指定多个列，但不可以创建多个索引。其索引粒度是block。这里提一嘴，前缀索引是以Block为粒度创建的稀疏索引，一个Block包含1024行数据，每个Block，以该Block的第一行数据的前缀列的值作为索引。

它的主要使用场景有：

非前缀过滤
适用于高基数列
查询条件是in和=（不支持like我也是没想到）

NGram BloomFilter

前面不是说BloomFilter不支持like么，这不就安排了？

NGram BloomFilter主要就是为了增强like查询性能的二级索引。

其语法如下：

CREATE TABLE xxx (
    ...
    INDEX idx_ngrambf (`username`) USING NGRAM_BF PROPERTIES("gram_size"="3", "bf_size"="256") COMMENT 'username ngram_bf index'
) ...

gram的个数跟实际查询场景相关，通常设置为大部分查询字符串的长度，bloom filter字节数，可以通过测试得出，通常越大过滤效果越好，可以从256开始进行验证测试看看效果。当然字节数越大也会带来索引存储、内存cost上升。

如果数据基数比较高，字节数可以不用设置过大，如果基数不是很高，可以通过增加字节数来提升过滤效果。

需要注意的是， NGram BloomFilter索引和BloomFilter索引为互斥关系，即同一个列只能设置两者中的一个。

Bitmap

位图结构，主要用来加速查询。这个索引使用的并不多，未来可能会被倒排所替代。

语法如下：

CREATE INDEX [IF NOT EXISTS] index_name ON table1 (siteid) USING BITMAP COMMENT 'balabala';

rollup和物化视图

rollup

rollup称之为"上卷"，它的概念有点类似clickhouse中的projection。但与projection又有所不同（功能会弱很多）。

rollup的数据是会物化存储到磁盘上的，其生命周期和base表一样，同生同灭。

rollup语法如下：

ALTER TABLE table1 ADD ROLLUP rollup_city(citycode, pv);

修改后，无需显式物化，它会自动在后台进行存量数据的物化。

rollup的作用主要有两个：

减少查询的范围
调整前缀索引，加速查询

物化视图

物化视图其实是rollup的一种能力补足。因为rollup是不支持基于明细模型做预聚合的，而物化视图是在rollup的基础上增加了预聚合的能力。

物化视图的数据依赖于底表，但是生命周期需要单独管理，和底表完全独立。你可以将物化视图理解为一种特殊的表。

物化视图语法示例：

CREATE MATERIALIZED VIEW < MV name > as 
SELECT select_expr[, select_expr ...]
FROM [Base view name]
GROUP BY column_name[, column_name ...]
ORDER BY column_name[, column_name ...]
[PROPERTIES ("key" = "value")]

Doris物化视图比较牛逼的地方在于，它可以在查询时自动匹配，也就是说，在查询时，我们依然可以查底表，Doris会根据查询语句自动选择一个最优的物化视图进行查询，而不需要显示地指定查询物化视图。

join查询

Doris提供了多种join方式。FE在规划分布式查询计划时，优先选择的顺序为：

Colocate Join -> Bucket Shuffle Join -> Broadcast Join -> Shuffle Join

其中：

colocate join:
- 提出CG的概念（colocation group），即将需要进行查询的多张表编入一组group中，这些表具有相同的hash字段，相同的分桶类型，分桶树以及副本数
- CG的作用是使所有的join操作都是本地join，而不需要分布式查询。
- CG的创建语法：

CREATE TABLE tbl (k1 int, v1 int sum)
DISTRIBUTED BY HASH(k1)
BUCKETS 8
PROPERTIES(
"colocate_with" = "group1"
);

- 由于colocate表的数据要保证相同hash key的数据处于相同的node上，所以做均衡的时候，数据迁移是要同步的，这难免会带来迁移的资源开销，且存在一定的数据倾斜风险。
- 当副本数据在进行修复或者迁移时，colocate表处于不可用状态，此时colocate join会退化为普通的join，会极大降低查询性能

bucket shuffle join:
- 只生效于join条件为等值的场景。依赖hash来计算确定的数据分布
- 右表加载到内存，将右（小）表先查出来，然后根据hash计算出来的数据分布，将小表的数据发送到各个节点进行本地join
- 只能保证左表为单分区时生效（where条件筛选出来的数据处于同一个分区）
- 类似clickhouse的global join

broadcast join：
- 将右表全量数据发送到各个节点，与左表在各个节点上做本地join，内存和网络开销都是N*B

shuffle join:
- 将左表和右表的数据经过hash计算分散到各个节点中，网络开销为 A+ B,内存开销为B。

除此之外，Doris为了加速join查询，还提供了runtime filter机制。

所谓的runtime filter，因为一般左表join右表，右表需要加载到内存，通常会比较小，所以当扫描左表和加载右表同时进行时，右表一般会率先完成，此时根据 join on cause动态生成一些过滤条件，并广播给正在各个节点扫描的左表，使得左表扫描的数据量减少，从而加速整个查询，避免不必要的网络开销。（有点类似谓词下推，但不完全是）

因此，runtime filter主要对左表很大，右表很小的情况下有明显的优化效果。如果左表和右表的规模相差不大，则加速效果不大。

shuffle方式	网络开销	内存开销	物理算子	适用场景
broadcast join	N* T(R)	N*T(R)	Hash Join/Nest Loop Join	通用
shuffle join	T(S)+ T(R)	T(R)	Hash Join	通用
bucket shuffle join	T(R)	T(R)	Hash Join	左表为单分区
colocate join	0	T(R)	Hash Join	左右表属于同一个CG

数据写入

Doris支持很多中数据源的数据导入，它提供了丰富的内置数据导入方案。如insert 语法，利用broker load导入，routine load导入， spark load导入等，同时，我们也可以通过诸如SetTuneal之类的第三方工具进行数据导入。

Doris内置的数据导入方式支持CSV、ORC、JSON等多种格式。接下来我们就简单介绍一下比较常见的数据导入方式。

broker load

在文章一开头介绍Doris组件时，就介绍过Doris除了FE和BE之外，还有一类可选组件叫broker。broker组件就是专门用来写入数据的。

broker组件需要额外安装。

它的原理是由FE创建broker计划，然后BE根据计划从具体的broker去拉取数据。

broker支持的数据源包括HDFS、BOS、AFS等文件系统。

使用broker load导入数据的语法如下：

LOAD LABEL broker_load_2022_03_23
(
    DATA INFILE("hdfs://192.168.20.123:8020/user/hive/warehouse/ods.db/ods_demo_detail/*/*")
    INTO TABLE doris_ods_test_detail
    COLUMNS TERMINATED BY ","
  (id,store_id,company_id,tower_id,commodity_id,commodity_name,commodity_price,member_price,cost_price,unit,quantity,actual_price) 
    COLUMNS FROM PATH AS (`day`)
   SET 
   (rq = str_to_date(`day`,'%Y-%m-%d'),id=id,store_id=store_id,company_id=company_id,tower_id=tower_id,commodity_id=commodity_id,commodity_name=commodity_name,commodity_price=commodity_price,member_price=member_price,cost_price=cost_price,unit=unit,quantity=quantity,actual_price=actual_price)
    )
WITH BROKER "broker_name_1" 
    ( 
      "username" = "hdfs", 
      "password" = "" 
    )
PROPERTIES
(
    "timeout"="1200",
    "max_filter_ratio"="0.1"
);

broker load 方式支持ORC、CSV、parquet、gzip等格式的数据。

stream load

stream load主要用于导入本地文件或者内存中的数据，它通过HTTP协议将数据写入到Doris。支持CSV和JSON格式。

stream load方式写入数据，会先选定一个BE节点作为Coordinator（协调者）节点，数据会先发往Coordinator节点，然后由Coordinator节点分发到各个BE节点，因此会出现写放大现象。

常用语法如下所示：

curl --location-trusted -u user:passwd [-H ""...] -T data.file -XPUT http://fe_host:http_port/api/{db}/{table}/_stream_load

stream load的任务无法手动取消，只能等待其成功或出错退出。

routine load

例行导入，目前仅支持kafka数据源。支持CSV和JSON格式。

FE会将一个导入作业拆分成若干task，每个task负责导入一部分的数据，不同的task被分配到不同的BE上去执行。

在BE上，每个task会被当成普通的stream load任务去执行，导入完成后，向FE汇报。

FE根据汇报结果，继续生成新的task，或重试失败的task。

支持无认证的kafka集群，SSL认证的kafka集群，以及kerberos认证的kafka集群。

在作业运行期间，如果修改表的schema，或者删除partition，可能会导致任务失败或者阻塞。

由于有task失败重试机制，所以在作业期间，即使kafka出现短暂失联，依然不影响数据的写入。

其语法如下所示：

CREATE ROUTINE LOAD example_db.test_json_label_1 ON table1
COLUMNS(category,price,author)
PROPERTIES
(
    "desired_concurrent_number"="3",
    "max_batch_interval" = "20",
    "max_batch_rows" = "300000",
    "max_batch_size" = "209715200",
    "strict_mode" = "false",
    "format" = "json"
)
FROM KAFKA
(
    "kafka_broker_list" = "broker1:9092,broker2:9092,broker3:9092",
    "kafka_topic" = "my_topic",
    "kafka_partitions" = "0,1,2",
    "kafka_offsets" = "0,0,0"
 );

其他

除了上面三种常见的写入方式外，Doris还提供了一些其他的写入方式。如：

spark load：
- 通过spark任务实现对数据导入的预处理，如排序，分区，聚合，构建索引等
- 由于预处理被spark任务提前完成了，因此可以大大节省Doris的资源消耗（如果spark资源和Doris部署在同一台机器上，当老夫没说）
- 支持所有spark资源可以访问的数据源，如HDFS、HIVE

mysql load：
- 说白了还是stream load，都是导入本地数据到Doris，不过是以mysql的SQL语法方式（load data infile xxxx into table）
- 仅支持CSV格式。

s3 load:
- 顾名思义，就是将S3的数据导入到Doris
- 语法和broker类似，举例如下：

LOAD LABEL example_db.exmpale_label_1
 (
 DATA INFILE("s3://your_bucket_name/your_file.txt")
 INTO TABLE load_test
 COLUMNS TERMINATED BY ","
 )
 WITH S3
 (
 "AWS_ENDPOINT" = "AWS_ENDPOINT",
 "AWS_ACCESS_KEY" = "AWS_ACCESS_KEY",
 "AWS_SECRET_KEY"="AWS_SECRET_KEY",
 "AWS_REGION" = "AWS_REGION"
 )
    PROPERTIES
 (
 "timeout" = "3600"
 );

insert into:
- 这个就不用解释了，使用SQL的方式插入数据。

与ClickHouse对比

集群部署运维难度

由于Doris自带的FE具有元数据管理能力，不需要像ClickHouse还要依赖zookeeper或者clickhouse-keeper这类第三方元数据管理工具，所以Doris的集群的集群运维管理非常方便。

以增加节点为例。

Doris增加节点，只需要一条SQL就能搞定。

它自己内部会自动维护配置文件，并同步表的结构。

如果是ClickHouse，需要维护者手动修改集群配置，手动同步元数据信息，如果涉及到分片的扩容，还需要考虑数据的再均衡。整套流程操作下来繁琐易出错，没有二十年的功力，根本挡不住。

但话又说回来，老夫若祭出ckman神器，阁下又该如何应对？

说句大不要脸的话，这一局勉强算个“平手”，不过分吧（阴险笑）？

生态完备性

如果把ClickHouse比作手动挡超级跑车，那么Doris更像是具备了智能车机平台的自动挡新能源势力。

ClickHouse什么都需要自己去做。集群管理需要自己做，数据写入需要自己做，更别说让人眼花缭乱的海量调优的参数了。甚至SQL都搞了许多方言实现，需要很多的额外改写工作。如果不是对ClickHouse有专业级理解，很难玩得转ClickHouse（不是说用不起来，而是说释放不出ClickHouse的全部性能）。

而Doris就鸡贼很多，完备的数据写入能力，查询能力，完全兼容MySQL协议的语法，你甚至用MySQL的client都能连接到Doris上，这对于刷惯了MySQL八股文的国人开发者来说，这在开发和使用上，几乎没有什么学习成本，岂不是有手就行？

数据写入

Doris内置了很多数据导入的工具，并且由于Doris本身事务的支持，使得Doris写入数据容错能力，各种数据源的接入能力都比较优秀。更离谱的是，stream load、routine load、broker load等导入工具还支持简单的过滤和解析逻辑，简直是一条龙服务。

而ClickHouse并没有提供专门的导数方案。虽然也有Kafka、HDFS等外部数据引擎可以直接查询外部存储的数据，但由于不再是Mergetree 引擎，无法利用Mergetree的特性对查询进行加速。我们必须自己实现或者依赖第三方的数据写入工具来进行数据的导入，如clickhouse_sinker、Seatuneal等。

但从写入性能方面来说，Doris单个任务只能做到50M/s左右，而clickhouse则可以达到200M/s，速度可谓是碾压。

当然Doris可以通过增加并发度来提高写入速度，但代价就是要消耗更多的资源。

数据查询

首先全文检索方面，Doris支持倒排索引，clickhouse仅支持通过布隆过滤器来进行加速，不消说完败。（听到了听到了，别再鞭尸了）

其次是分布式join查询能力。ClickHouse仅提供broadcast join，而Doris的bucket shuffle join以及colocate join都是非常牛逼的存在。虽然clickhouse可以通过手动指定hash key来达到colocate join的效果，但毕竟不是原生就支持的能力。

double kill。

clickhouse和Doris都是列存，同样都支持向量化搜索。所谓向量化，说通俗点就是数据一批一批的去执行，多批数据之间可以并发执行，这种查询可以大大加速查询性能。在单表查询以及聚合查询场景下，clickhouse的能力还是要比Doris要强不少的。

而且Doris的列存不同于其他的OLAP数据库，特别是在Aggregate模型下，由于其内部加入了聚合算子，如果要计算count，性能会特别拉胯。而Clickhouse由于在批量插入时，会同时记录count到磁盘，基本可以秒出结果。

用户权限管理

Doris的权限管理比较粗糙，ClickHouse不仅支持完善的行级别查询限制，以及用户级别的内存限制，查询内存限制，还支持查询行数的限制，而这些都是Doris所不具备的。

clickhouse利用这些权限管理，可以提供更稳定的体验。比如限制查询用户的内存和线程数，保证导入数据的性能不受影响，以及一些大查询的查询次数限制，返回行数限制等。从而减小查询带来的大开销。

总结

到底是我太天真了。以为靠一篇文章可以将Doris一把梭。

其实仔细想想怎么可能。clickhouse那样的体量，研究并使用了这么多年尚且没搞明白，Doris毕竟是对标clickhouse的存在，自然有其该有的深度与咖位。

所以本文权且当做一个引子，仅作为Doris入门读物。后面我将分专题分享一些Doris的性能测试，以及与clickhouse的对比文章。让我们看看Doris到底能快到什么地步，而clickhouse这部手动超级跑车，能否通过老司机的神（性）级（能）操（调）作（优），让其发挥出不亚于Doris的性能。

让我们拭目以待。

本专栏知识点是通过<零声教育>的系统学习，进行梳理总结写下文章，对C/C++课程感兴趣的读者，可以点击链接，查看详细的服务：C/C++Linux服务器开发/高级架构师

你可能感兴趣的:(数据库,数据库,apache,全文检索,clickhouse)

IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
包含日志获取webshell 陈望_ning
日志文件关闭：Apache目录下的httpd.conf文件#ErrorLog"logs/error.log"#CustomLog"logs/access.log"common加#号为注释不产生日志文件如果去掉#将会在Apache/logs/目录下产生日志文件linux:access_logerror_logwindows:access.logerror.logaccess_log每一行记录了一次网
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
mac os 10.9 mysql_MAC OSX 10.9 apache php mysql 环境配置 AY05 mac os 10.9 mysql
＃终端内运行sudoapachectlstart#启动Apachesudoapachectlrestart#重启Apachesudoapachectlstop#停止Apache＃配置Apachesudovi/private/etc/apache2/httpd.conf#将里面的这一行去掉前面的##LoadModulephp5_modulelibexec/apache2/libphp5.so＃配置P
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
前端数据库：IndexedDB从基础到高级使用指南
文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
修改gitlab默认的语言 Victor刘 gitlab
文章目录网上的方法1.采用数据库触发器的方法2.登录pg库2.1查看表2.2创建function2.3创建触发器2.4修改历史数据网上的方法网上修改/opt/gitlab/embedded/service/gitlab-rails/config/application.rb的方法，我试了，没生效，没进一步研究1.采用数据库触发器的方法2.登录pg库su-gitlab-psqlpsql-h/var/
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和运行 Redis 服务器山岚的运维笔记 Linux 运维及使用 linux 服务器 ubuntu redis 数据库
Redis（RemoteDictionaryServer，远程字典服务器）是一种内存数据结构存储，通常用作NoSQL数据库、缓存和消息代理。它是开源的，因此用户可以免费安装，无需支付任何费用。Redis旨在为需要快速数据访问和低延迟的应用程序提供速度和效率。Redis支持多种数据类型，包括字符串（Strings）、列表（Lists）、集合（Sets）、哈希（Hashes）、有序集合（SortedS
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
【Druid】学习笔记 fixAllenSun 学习笔记 oracle
【Druid】学习笔记【一】简介【1】简介【2】数据库连接池（1）能解决的问题（2）使用数据库连接池的好处【3】监控（1）监控信息采集的StatFilter（2）监控不影响性能（3）SQL参数化合并监控（4）执行次数、返回行数、更新行数和并发监控（5）慢查监控（6）Exception监控（7）区间分布（8）内置监控DEMO【4】Druid基本配置参数介绍【5】Druid相比于其他数据库连接池的优点
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
Spring AI Alibaba 快速入门指南（适合初学者）会飞的架狗师 AI spring 人工智能 java
如果你是刚接触AI开发或Spring框架的初学者，不用担心，本指南会用简单易懂的语言带你一步步了解并使用SpringAIAlibaba。一、什么是SpringAIAlibaba（小白也能懂）简单来说，SpringAIAlibaba就是一个“工具包”，它把阿里巴巴的AI技术（比如通义千问大模型、向量数据库等）和大家常用的Spring框架“打包”到了一起。**打个比方：**就像你想做蛋糕（开发AI应用
Java朴实无华按天计划从入门到实战（强化速战版-66天）岫珩 Java 后端 java 开发语言学习 Java 时间安排学习计划
致敬读者感谢阅读笑口常开生日快乐⬛早点睡觉博主相关博主信息博客首页专栏推荐活动信息文章目录Java朴实无华按天计划从入门到实战（强化速战版-66天）1.基础（18）1.1JavaSE核心（5天）1.2数据库与SQL（5天）1.3前端基础（8天）2.进阶（17天）2.1JavaWeb核心（5天）2.2Mybatis与Spring全家桶（6天）2.3中间件入门（4天）2.4实践项目（2天）3.高阶（1
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
小白学习mysql 阿什么名字不会重复呢 mysql 数据库大数据人工智能
推荐自学网站不用下载本地环境带自测头歌https://www.educoder.net✅适合基础小白的MySQL简单实用学习计划总学习时间建议：10~14天，每天1小时左右即可最终目标：掌握基础SQL操作，能完成简单项目需求第1阶段：认识数据库与环境搭建（1~2天）你需要学会：•数据库是什么？SQL是什么？•安装MySQLServer+Navicat（推荐用Navicat可视化工具）✅推荐学习内容
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
MYSQL：MySQL 事务隔离级别详解奋斗的狍子007 MySQL核心知识点 mysql 数据库 java spring 架构 spring boot ide
一、MySQL事务是什么？ MySQL事务是一组在数据库中执行的操作，这些操作要么全部成功执行，要么全部不执行，以确保数据库的完整性和一致性。事务的ACID 事务具有四个特征：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持续性（Durability）。这四个特性简称为ACID特性。原子性：事务是数据库的逻辑工作单位，事务中包含的各操作要么都做，
Ubuntu lamp 会飞的灰大狼 linux ubuntu
Ubuntulamp前言在Ubuntu安装lamp架构我们了解到lamp是完整的架构我们前面了解到了集合了Linux系统apacheMySQL和PHP语言的完整架构我们前面说了Centos7中编译安装lamp那么我们去说一下在Ubuntu中安装‍‍安装apache2‍apt直接安装apache2apt-yinstallapache2‍启动apache2systemctlstartapache2#测
免费版 Navicat Premium Lite 17 下载和使用曼巴不黑数据库 navicat navicat免费
>>>>>>下载地址以后不需要再为使用Navicat大费周章了，官网已经提供免费版供个人和初创企业使用，认准NavicatPremiumLite。NavicatPremiumLite是Navicat的精简版，它包含了用户执行主要的基本数据库操作所需的核心功能。它允许你同时连接到各种数据库平台，包括MySQL、PostgreSQL、SQLServer、Oracle、MariaDB、Snowflake
Navicat Premium 17.1 的详细使用教程春云资源 mysql
下载地址：NavicatPremium17.1最新官方版|春云资源#NavicatPremium17.1功能全解析与使用教程指南在当今数字化的时代，数据库管理的高效性与便捷性成为众多企业和开发者追求的目标。NavicatPremium17.1作为一款备受瞩目的数据库管理工具，以其强大的功能和友好的用户界面脱颖而出。以下将为您详细介绍其使用方法，助力您轻松驾驭数据库管理工作。##一、下载与安装流程开
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修