夹毛局的程序员

4.Doris数据导入导出

导入

Doris支持多种数据源导入如S3 HDFS Kafka 本地文件 Binlog 等
官方文档

导入的原子性保证

Doris 的每一个导入作业，不论是使用 Broker Load 进行批量导入，还是使用 INSERT 语句进行单条导入，都是一个完整的事务操作。导入事务可以保证一批次内的数据原子生效，不会出现部分数据写入的情况。

导入方式

导入方式分为同步与异步，同步方式直接返回导入成功或者失败；异步方式返回作业提交成功，不代表导入成功，需要通过对应命令查询作业运行状态

导入本地数据

Doris2.0支持Stream Load 与MySQL Load两种本地导入模式

Stream Load 通过HTTP协议与Doris交互

支持CSV 与 JSON格式 1.2+ 支持PARQUET 与 ORC 默认CSV
BE 的 HTTP 协议端口，默认为 8040。
FE 的 HTTP 协议端口，默认为 8030。但须保证客户端所在机器网络能够联通 BE 所在机器

PUT /api/{db}/{table}/_stream_load

-- 创建表
CREATE TABLE IF NOT EXISTS load_local_file_test
(
    id INT,
    age TINYINT,
    name VARCHAR(50)
)
unique key(id)
DISTRIBUTED BY HASH(id) BUCKETS 3;

 # 使用CURL进行数据导入
 curl -u user:passwd -H "label:load_local_file_test" -T /path/to/local/demo.txt http://host:port/api/demo/load_local_file_test/_stream_load

user:passwd 为在 Doris 中创建的用户。初始用户为 admin / root，密码初始状态下为空
host:port 为 BE 的 HTTP 协议端口，默认是 8040，可以在 Doris 集群 WEB UI页面查看
label: 可以在 Header 中指定 Label 唯一标识这个导入任务

{
    "TxnId": 1003,
    "Label": "load_local_file_test",
    "Status": "Success",
    "Message": "OK",
    "NumberTotalRows": 1000000,
    "NumberLoadedRows": 1000000,
    "NumberFilteredRows": 1,
    "NumberUnselectedRows": 0,
    "LoadBytes": 40888898,
    "LoadTimeMs": 2144,
    "BeginTxnTimeMs": 1,
    "StreamLoadPutTimeMs": 2,
    "ReadDataTimeMs": 325,
    "WriteDataTimeMs": 1933,
    "CommitAndPublishTimeMs": 106,
    "ErrorURL": "http://192.168.1.1:8042/api/_load_error_log?file=__shard_0/error_log_insert_stmt_db18266d4d9b4ee5-abb00ddd64bdf005_db18266d4d9b4ee5_abb00ddd64bdf005"
}

导入结果 Status 状态为Success为成功导入
Stream Load 只能导入本地文件
建议一个导入请求的数据量控制在 1 - 2 GB 以内。如果有大量本地文件，可以分批并发提交

外部存储导入

外部存储导入支持常用的HDFS与符合S3协议的存储介质

以HDFS为例借助Broker进行导入，建议所有BE都部署上Broker

  -- 基本语法
  LOAD LABEL db_name.label_name 
  (data_desc, ...)
  WITH HDFS
  [PROPERTIES (key1=value1, ... )]

上传文件到HDFS

创建Doris表

CREATE TABLE IF NOT EXISTS load_hdfs_file_test
(
    id INT,
    age TINYINT,
    name VARCHAR(50)
)
unique key(id)
DISTRIBUTED BY HASH(id) BUCKETS 3;

从HDFS中导入数据

LOAD LABEL demo.label_20220402
    (
    DATA INFILE("hdfs://host:port/tmp/test_hdfs.txt")
    INTO TABLE `load_hdfs_file_test`
    COLUMNS TERMINATED BY "\t"            
    (id,age,name)
    )
    with HDFS (
    "fs.defaultFS"="hdfs://testFs",
    "hdfs_user"="user"
    )
    PROPERTIES
    (
    "timeout"="1200",
    "max_filter_ratio"="0.1"
    );

查看导入状态 SHOW LOAD命令

mysql> show load order by createtime desc limit 1\G;
*************************** 1. row ***************************
         JobId: 41326624
         Label: broker_load_2022_04_15
         State: FINISHED
      Progress: ETL:100%; LOAD:100%
          Type: BROKER
       EtlInfo: unselected.rows=0; dpp.abnorm.ALL=0; dpp.norm.ALL=27
      TaskInfo: cluster:N/A; timeout(s):1200; max_filter_ratio:0.1
      ErrorMsg: NULL
    CreateTime: 2022-04-01 18:59:06
  EtlStartTime: 2022-04-01 18:59:11
 EtlFinishTime: 2022-04-01 18:59:11
 LoadStartTime: 2022-04-01 18:59:11
LoadFinishTime: 2022-04-01 18:59:11
           URL: NULL
    JobDetails: {"Unfinished backends":{"5072bde59b74b65-8d2c0ee5b029adc0":[]},"ScannedRows":27,"TaskNumber":1,"All backends":{"5072bde59b74b65-8d2c0ee5b029adc0":[36728051]},"FileNumber":1,"FileSize":5540}
1 row in set (0.01 sec)

订阅kafka日志

订阅kafka日志借助了Doris Routine Load方式

用户首先需要创建一个例行导入作业。作业会通过例行调度，不断地发送一系列的任务，每个任务会消费一定数量 Kafka 中的消息

支持无认证的 Kafka 访问，以及通过 SSL 方式认证的 Kafka 集群。

支持的消息格式如下：

csv 文本格式。每一个 message 为一行，且行尾不包含换行符。

Json 格式，详见导入 Json 格式数据。

仅支持 Kafka 0.10.0.0(含) 以上版本。

-- 语法
CREATE ROUTINE LOAD [db.]job_name [ON tbl_name]
[merge_type]
[load_properties]
[job_properties]
FROM data_source [data_source_properties]
[COMMENT "comment"]

-- 示例
CREATE ROUTINE LOAD demo.my_first_routine_load_job ON test_1
COLUMNS TERMINATED BY ","
PROPERTIES
(
    "max_batch_interval" = "20",
    "max_batch_rows" = "300000",
    "max_batch_size" = "209715200",
)
FROM KAFKA
(
    "kafka_broker_list" = "broker1:9092,broker2:9092,broker3:9092",
    "kafka_topic" = "my_topic",
    "property.group.id" = "xxx",
    "property.client.id" = "xxx",
    "property.kafka_default_offsets" = "OFFSET_BEGINNING"
);

-- 查看作业运行状态 SHOW ROUTINE LOAD
SHOW [ALL] ROUTINE LOAD [FOR jobName];


                  Id: 作业ID
                Name: 作业名称
          CreateTime: 作业创建时间
           PauseTime: 最近一次作业暂停时间
             EndTime: 作业结束时间
              DbName: 对应数据库名称
           TableName: 对应表名称 （多表的情况下由于是动态表，因此不显示具体表名，我们统一显示 multi-table ）
           IsMultiTbl: 是否为多表
               State: 作业运行状态
      DataSourceType: 数据源类型：KAFKA
      CurrentTaskNum: 当前子任务数量
       JobProperties: 作业配置详情
DataSourceProperties: 数据源配置详情
    CustomProperties: 自定义配置
           Statistic: 作业运行状态统计信息
            Progress: 作业运行进度
                 Lag: 作业延迟状态
ReasonOfStateChanged: 作业状态变更的原因
        ErrorLogUrls: 被过滤的质量不合格的数据的查看地址
            OtherMsg: 其他错误信息

查看导入作业状态

查看作业状态的具体命令和示例请参阅 SHOW ROUTINE LOAD 命令文档。

查看某个作业的任务运行状态的具体命令和示例请参阅 SHOW ROUTINE LOAD TASK 命令文档。

只能查看当前正在运行中的任务，已结束和未开始的任务无法查看。

修改作业属性

用户可以修改已经创建的作业的部分属性。具体说明请参阅 ALTER ROUTINE LOAD 命令手册。

作业控制

用户可以通过 STOP/PAUSE/RESUME 三个命令来控制作业的停止，暂停和重启。

具体命令请参阅 STOP ROUTINE LOAD，PAUSE ROUTINE LOAD，RESUME ROUTINE LOAD 命令文档。

通过外部表同步数据

Doris支持创建外部表，创建完成之后可以通过SELECT语句直接查询外部表的数据，也可以通过INSERT INTO SELECT 的方式导入外部表的数据

Doris 外部表目前支持的数据源包括：

MySQL
Oracle
PostgreSQL
SQLServer
Hive
Iceberg
ElasticSearch

创建一个ODBC的外部表创建 ODBC 外部表的详细介绍请参阅 CREATE EXTERNAL TABLE 语法帮助手册

CREATE EXTERNAL RESOURCE `oracle_test_odbc`
PROPERTIES (
    "type" = "odbc_catalog",
    "host" = "192.168.0.10",
    "port" = "8086",
    "user" = "oracle",
    "password" = "oracle",
    "database" = "oracle",
    "odbc_type" = "oracle",
    "driver" = "Oracle"
);

创建外部表

CREATE EXTERNAL TABLE `ext_oracle_demo` (
  `k1` decimal(9, 3) NOT NULL COMMENT "",
  `k2` char(10) NOT NULL COMMENT "",
  `k3` datetime NOT NULL COMMENT "",
  `k5` varchar(20) NOT NULL COMMENT "",
  `k6` double NOT NULL COMMENT ""
) ENGINE=ODBC
COMMENT "ODBC"
PROPERTIES (
    "odbc_catalog_resource" = "oracle_test_odbc",
    "database" = "oracle",
    "table" = "baseall"
);

创建Doris表

CREATE TABLE `doris_oralce_tbl` (
  `k1` decimal(9, 3) NOT NULL COMMENT "",
  `k2` char(10) NOT NULL COMMENT "",
  `k3` datetime NOT NULL COMMENT "",
  `k5` varchar(20) NOT NULL COMMENT "",
  `k6` double NOT NULL COMMENT ""
)
COMMENT "Doris Table"
DISTRIBUTED BY HASH(k1) BUCKETS 2
PROPERTIES (
    "replication_num" = "1"
);

导入数据此时 INSERT INTO SELECT是一个同步命令
```
INSERT INTO doris_oralce_tbl SELECT k1,k2,k3 FROM ext_oracle_demo limit 100;
```
- 必须保证外部数据源与 Doris 集群是可以互通，包括BE节点和外部数据源的网络是互通的。
- ODBC 外部表本质上是通过单一 ODBC 客户端访问数据源，因此并不合适一次性导入大量的数据，建议分批多次导入。

数据导出

异步导出（Export）是 Doris 提供的一种将数据异步导出的功能。该功能可以将用户指定的表或分区的数据，以指定的文件格式，通过 Broker 进程或 S3协议/HDFS协议导出到远端存储上，如对象存储 / HDFS

EXPORT支持导出 Doris本地表 / View视图 / 外表，支持导出到 parquet / orc / csv / csv_with_names / csv_with_names_and_types 文件格式

执行步骤

用户提交一个 Export 作业到 FE。
FE会统计要导出的所有Tablets，然后根据parallelism参数将所有Tablets分组，每一组再根据maximum_number_of_export_partitions参数生成若干个SELECT INTO OUTFILE查询计划
根据parallelism参数，生成相同个数的ExportTaskExecutor，每一个ExportTaskExecutor由一个线程负责，线程由FE的Job 调度框架去调度执行。
FE的Job调度器会去调度ExportTaskExecutor并执行，每一个ExportTaskExecutor会串行地去执行由它负责的若干个SELECT INTO OUTFILE查询计划

语法

EXPORT TABLE db1.tbl1 
PARTITION (p1,p2)
[WHERE [expr]]
TO "hdfs://host/path/to/export/" 
PROPERTIES
(
    "label" = "mylabel",
    "column_separator"=",",
    "columns" = "col1,col2",
    "parallelusm" = "3"
)
WITH BROKER "hdfs"
(
    "username" = "user",
    "password" = "passwd"
);

label：本次导出作业的标识。后续可以使用这个标识查看作业状态。
column_separator：列分隔符。默认为 \t。支持不可见字符，比如 ‘\x07’。
columns：要导出的列，使用英文状态逗号隔开，如果不填这个参数默认是导出表的所有列。
line_delimiter：行分隔符。默认为 \n。支持不可见字符，比如 ‘\x07’。
parallelusm：并发3个线程去导出

查看导出状态

mysql> show EXPORT\G;
*************************** 1. row ***************************
     JobId: 14008
     State: FINISHED
  Progress: 100%
  TaskInfo: {"partitions":[],"max_file_size":"","delete_existing_files":"","columns":"","format":"csv","column_separator":"\t","line_delimiter":"\n","db":"default_cluster:demo","tbl":"student4","tablet_num":30}
      Path: hdfs://host/path/to/export/
CreateTime: 2019-06-25 17:08:24
 StartTime: 2019-06-25 17:08:28
FinishTime: 2019-06-25 17:08:34
   Timeout: 3600
  ErrorMsg: NULL
  OutfileInfo: [
  [
    {
      "fileNumber": "1",
      "totalRows": "4",
      "fileSize": "34bytes",
      "url": "file:///127.0.0.1/Users/fangtiewei/tmp_data/export/f1ab7dcc31744152-bbb4cda2f5c88eac_"
    }
  ]
]
1 row in set (0.01 sec)

JobId：作业的唯一 ID

State：作业状态：

PENDING：作业待调度

EXPORTING：数据导出中

FINISHED：作业成功

CANCELLED：作业失败

Progress：作业进度。该进度以查询计划为单位。假设一共 10 个线程，当前已完成 3 个，则进度为 30%。

TaskInfo：以 Json 格式展示的作业信息：

db：数据库名

tbl：表名

partitions：指定导出的分区。空列表表示所有分区。

column_separator：导出文件的列分隔符。

line_delimiter：导出文件的行分隔符。

tablet num：涉及的总 Tablet 数量。

broker：使用的 broker 的名称。

coord num：查询计划的个数。

max_file_size：一个导出文件的最大大小。

delete_existing_files：是否删除导出目录下已存在的文件及目录。

columns：指定需要导出的列名，空值代表导出所有列。

format：导出的文件格式

Path：远端存储上的导出路径。

CreateTime/StartTime/FinishTime：作业的创建时间、开始调度时间和结束时间。

Timeout：作业超时时间。单位是秒。该时间从 CreateTime 开始计算。

ErrorMsg：如果作业出现错误，这里会显示错误原因。

OutfileInfo：如果作业导出成功，这里会显示具体的SELECT INTO OUTFILE结果信息

Apache Doris 2.0.5 版本正式发布
亲爱的社区小伙伴们，ApacheDoris2.0.5版本已于2024年2月27日正式与大家见面。这次更新带来一系列行为变更和功能更新，并进行了若干的改进与优化，旨在为用户提供更为稳定高效的数据查询与分析体验。新版本已经上线，欢迎大家下载体验！行为变更selectchar(0)='\0'返回true，跟MySQL的行为保持一致Export导出数据支持空表新增功能利用过滤条件中的isnull谓词，将O
Doris ——SQL原理解析爱吃辣条byte #Doris sql 数据库
目录前言一、Doris简介二、SQL解析简介2.1词法分析2.2语法分析2.3逻辑计划2.4物理计划三、DorisSQL解析的总体架构四、Parse阶段五、Analyze阶段六、SinglePlan阶段（生成单机逻辑Plan阶段）七、DistributedPlan计划（生成分布式逻辑阶段）7.1DistributedPlan概述7.2四种join算法：7.2.1BroadcastJoin7.2.2
第3.2章：Doris-2.0数据导入——Compaction机制爱吃辣条byte #Doris sql 数据库
目录一、Compaction概述1.1LSM-Tree概述1.2Compaction概述1.3Rowset数据版本1.4Compaction优点1.5Compaction问题1.5.1Compaction速度低1.5.2写放大问题1.6Compaction调优1.6.1业务侧1.6.2运维侧二、Compaction执行方式2.1VerticalCompaction2.1.1概述2.1.2原理2.2
第3.2章：Doris数据导入——Compaction机制（1）爱吃辣条byte #Doris sql 数据库
目录一、Compaction机制1.1compaction概述1.2compaction优点1.3compaction类型二、Compaction的问题2.1compaction速度低于数据写入速度2.2写放大问题三、数据版本的产生四、base&cumulativecompaction注：本篇文章阐述的是Doris1.2.2版本之前的compaction机制一、Compaction机制1.1com
Apache Doris 聚合函数源码阅读与解析｜源码解读系列
笔者最近由于工作需要开始调研ApacheDoris，通过阅读聚合函数代码切入ApacheDoris内核，同时也秉承着开源的精神，开发了array_agg函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解，同时也方便后面的新人更快速地上手源码开发。聚合函数，顾名思义，即对一组数据执行聚合计算并返回结果的函数，在统计分析过程中属于最常见的函数之一，最典型的聚合函数包括count、min、max、
Doris存储层设计介绍1——存储结构设计解析（索引底层结构）爱吃辣条byte #Doris 大数据数据库 sql
目录一、概述1.1存储结构的整体介绍1.2存储结构的设计目标二、存储文件格式2.1存储目录结构编辑2.2Segmentv2文件结构三、Footer信息3.1列的meta信息3.2列索引的meta信息四、前缀索引（ShortKeyIndex）4.1功能介绍4.2索引生成4.3索引的底层存储结构4.3.1Segmentfooter4.3.2ShortKeyPage4.4查询过滤4.5应用案例五、Ord
[Doris] Doris的安装和部署 (二) 959y Doris OLAP doris olap bigdata
文章目录1.安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项1.4内部端口2.集群部署2.1操作系统安装要求2.2下载安装包2.3解压2.4配置FE2.5配置BE2.6添加BE2.7FE扩容和缩容2.8Doris集群群起脚本3.图形化1.安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项所有部署节点关闭Swap。Follower的数量必须为奇数，Observer数量随
数据仓库内容分享(十七)：Doris实践分享:它做了哪些架构优化和场景优化？之乎者也· 数据仓库内容分享架构设计内容分享数据仓库架构
ApacheDoris是一款开源的实时数据仓库，由百度旗下的技术团队开发。它具有高性能、高可靠性、易扩展等特点，能够满足大规模数据实时查询和分析的需求。目前，ApacheDoris已经成为国内外众多企业的首选数据仓库解决方案，包括阿里巴巴、美团、京东、滴滴等知名企业。作为被众多大型互联网企业广泛采用的实时数据仓库，Doris拥有一些核心优势和独特的特点。我们从它的架构设计和使用场景来看一下这些优势
当我们一起走过 2023｜Apache Doris 年度时刻盘点
2024年的第一个月已经彻底过去，2023年的回顾总结才姗姗来迟。在过去一年的大多数时间里，我们一直处于忙碌的状态中，紧锣密鼓的代码研发、高速推进的版本迭代、行程紧密的全国之行，众多社区用户与开发者皆是见证。越是忙碌，在年末的这场回顾就越难能可贵。在2024年开端，我们挑选出了一些有意义的片刻，期待跟每一个社区用户和开发者一同看看过去一年所共同经历的种种。正是因为每一个您都是见证者和参与者，所以把
doris数据库介绍坎坷终究平坦数据库 sql
目录1、简介2、特点3、doris架构4、doris数据表设计-分区与分桶5、doris的数据模型1、简介ApacheDoris是一个分布式在线分析处理（OLAP）数据库，它的特点是基于列存储的MPP架构，支持快速的交互式查询和高并发的随机写入。2、特点https://www.cnblogs.com/liujichang/p/17384083.html基于列式存储行式存储下一张表的数据都是放在一起
flinkcdc 3.0 源码学习之任务提交脚本flink-cdc.sh Antgeek flinkcdc flink flinkcdc 源码
大道至简,用简单的话来描述复杂的事,我是Antgeek,欢迎阅读.在flink3.0版本中,我们仅通过一个简单yaml文件就可以配置出一个复杂的数据同步任务,然后再来一句bashbin/flink-cdc.shmysql-to-doris.yaml就可以将任务提交,本文就是来探索一下这个shell脚本,主要是研究如何通过一个shell命令+yaml文件将任务提交,其他的功能会在之后的文章中解读大数
（C++）对象指针——小白Doris的课堂笔记 Doris-510 c++开发语言
1.对象指针声明形式：类名*对象指针名；例如：PointA(2,3);Point*ptr;ptr=&A;通过指针访问对象成员：对象指针名-->成员名ptr-->getX();or(*ptr).getX();2.this指针定义：隐含于每一个类的成员函数中的特殊指针。功能：明确地指出了成员函数当前所操作的数据所属的对象。使用：当通过一个对象调用成员函数时，系统先将该对象的地址赋给this指针，然后调
史上最全OLAP对比只会写demo的程序猿数仓 spark hadoop 数据仓库
目录1.什么是OLAP2.OLAP引擎的常见操作3.OLAP分类MOLAP的优点和缺点ROLAP的优点和缺点4.并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2SparkSQL、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7Doris5.8Druid5.9Kylin综上所述:1.什么是OLAPOLAP（On
【遇见Doris】Doris on ES在快手商业化的最佳实践 ApacheDoris 数据仓库大数据分布式数据库 java
贺祥快手商业化团队数据架构高级工程师主要负责商业化报表引擎快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说
【Doris】Doris on ES在快手商业化的最佳实践九层之台起于累土【Doris】【BigData】elasticsearch 大数据 kafka 数据库
快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说数据分为实时+离线两块事实数据写入，外加mysqlbinl
文末附群｜Doris on ES在快手商业化的最佳实践小晨说数据 Doris专栏数据库分布式 java xhtml 大数据
贺祥快手商业化团队数据架构高级工程师主要负责商业化报表引擎快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说
Apache Doris 用户案例库 hf200012 Doris 大数据 doris
按行业分类互联网京东ApacheDoris在京东广告平台的应用ApacheDoris在京东双十一大促中的实践京东物流基于Doris的亿级数据自助探索应用ApacheDoris物化视图与索引在京东的典型应用ApacheDoris在京东客服OLAP中的应用实践京东搜索实时OLAP探索与实践知乎基于ApacheDoris的DMP平台架构建设实践同程数科基于ApacheDoris的数据仓库建设货拉拉基于A
使用navicat导出mysql离线数据后，再导入doris的方案 austin1000 数据库 mysql doris navicat
一、背景doris本身是支持直接从mysql中同步数据的，但有时候，客户不允许我们使用doris直连mysql，此时就需要客户配合将mysql中的数据手工导出成离线文件，我们再导入到doris中二、环境doris1.2三、方案doris支持多种导入离线数据的方案，见doris导入数据方案，但在本文场景下，一般会使用到insertinto、csv和json三种方案3.1insertinto方案dor
Doris中的本地routineload环境，用于开发回归测试用例 howard_shooter Doris 数据库
----------------2024-2-6-更新--------------doris的routineload，就是从kafka中加载数据到表，特点是定时、周期性的从kafka取数据。要想在本地开发测试routineload相关功能，需要配置kafka环境，尤其是需要增加routineload回归测试用例时，还需要kafka有回归测试需要的数据。doris源码里自带了一个脚本docker/t
kyuubi 接入starrocks | doris 甜甜的巧克力阿大数据相关大数据 kyuubi starrocks doris
kyuubi接入starrocks一、环境Hadoop集群组件版本Hadoop3.1.1spark3.Xzookeeper3.XHive3.Xkyuubi版本1.7.1starrocks2.X 已将kyuubi部署到yarn上，并且接入了spark3引擎，并通过Ambari进行kyuubi组件的管理，下面步骤为新增对starrocks集群的访问。二、接入步骤假设安排hostA、hostB两个节点
Doris集群部署一心猿大数据大数据
一、Doris默认端口号注意：当部署多个FE实例时，要保证FE的http_port配置相同。二、集群部署2.1整体架构主机1主机2主机3FE（LEADER）FE（FOLLOWER）FE（OBSERVER）BEBEBEBROKERBROKERBROKER注意：生产环境建议FE和BE分开部署2.2部署单个doris1）下载doris二进制包到三个主机上wgethttps://apache-doris-
D73 2组阿德doris+《活出生命的意义》读书笔记阿德doris
曾经看过一个故事在一间病房里，新住进来两个病人，两个人病情差不多，医生在诊断之后，说两个人可能只有一两年的时间了。他们的家属每天都会过来看望和陪伴他们。A的家属，每次来都会带一束花，穿着整齐，精神满满地过来看他，每次都告诉他："家里的事，你别担心，我们会处理好的，你就安心养病就可以。”而B的家属他的妻子则完全相反，每天都蓬头垢面，看着邋里邋遢地，每次来都拉着B的手向他哭诉：“爸妈他们本来身体就不好
Doris(三)-集群部署3个FE+3个BE BatmanWayne 数据仓库 doris 数据仓库集群
前置1）配置java环境1st解压jdk包unzipjdk1.8.0_171-amd64.zip2nd配置环境变量vim/etc/profile#文末添加JAVA_HOME=/data/jdk1.8.0_171-amd64PATH=$JAVA_HOME/bin:$PATHexportPATHJAVA_HOME3rd启用配置source/etc/profile4th验证java-version2）下
Doris bitmap实现留存计算小晨说数据 java python 算法数据结构数据分析
一、背景什么是留存比如用户今天使用某应用，明天还继续使用该应用，叫做留存。bitmap原理基本思想是用数组下标表示元素的值，用0,1标记元素是否存在，1表示存在，0表示不存在。由于使用bit为单位来存储数据，大大节省了存储空间。例如：给定一个数组array=[1,3,5];为什么要用bitmap？bitmap为什么能计算留存？bitmap为什么只支持int类型？①节省存储空间。②留存实际上是求交集
Doris的12天减肥日记-第5天 Dorisyoung
去平安了解了情况。接受温老师杨老师的面试邀请下午去助理面试，主要是了解平某的情况事情会一件一件慢慢来和食物一样清新不油腻图片发自App
Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询京东云技术团队 apache flink 大数据
1概况本文展示如何使用FlinkCDC+Iceberg+Doris构建实时湖仓一体的联邦查询分析，Doris1.1版本提供了Iceberg的支持，本文主要展示Doris和Iceberg怎么使用，大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。2系统架构我们整理架构图如下，1.首先我们从Mysql数据中使用Flink通过Binlog完成数据的实时采集2.然后再Flink中创建Iceberg表
记 doris 加载压缩文件（lzo、snappy）pr howard_shooter Doris 信息技术笔记压缩
做了一个case，是doris支持加载lzo压缩文件。[improvement](load)Enablelzo&RemovedependencyonMarkusF.X.J.Oberhumer'slzolibrarybyHowardQin·PullRequest#30573·apache/doris(github.com)其实doris里已经支持了lzo，这个case源自一个issue，[Enhan
streampark+flink一键整库或多表同步mysql到doris实战京东云技术团队 flink mysql 大数据
streampark+flink一键整库或多表同步mysql到doris实战，此应用一旦推广起来，那么数据实时异构时，不仅可以减少对数据库的查询压力，还可以减少数据同步时的至少50%的成本，还可以减少30%的存储成本；streampark搭建二进制包编译构建编译构建二进制可执行包，使用自己构建的二进制包构建Docker镜像，需要准备一台Linux的服务或者是虚拟机，可以正常上网即可，在该台机子上需
【数据结构与算法】之哈希表系列-20240131 敲代码敲到头发茂密数据结构与算法散列表数据结构 python leetcode 开发语言算法
这里写目录标题一、599.两个列表的最小索引总和二、1122.数组的相对排序三、1002.查找共用字符四、771.宝石与石头五、961.在长度2N的数组中找出重复N次的元素一、599.两个列表的最小索引总和简单假设Andy和Doris想在晚餐时选择一家餐厅，并且他们都有一个表示最喜爱餐厅的列表，每个餐厅的名字用字符串表示。你需要帮助他们用最少的索引和找出他们共同喜爱的餐厅。如果答案不止一个，则输出
Apache Doris 2.0.4 版本正式发布 SelectDB技术团队 apache 大数据数据仓库数据分析数据库 Apache Doris
亲爱的社区小伙伴们，ApacheDoris2.0.4版本已于2024年1月26日正式发布，该版本在新优化器、倒排索引、数据湖等功能上有了进一步的完善与更新，使ApacheDoris能够适配更广泛的场景。此外，该版本进行了若干的改进与优化，以提供更加稳定高效的性能体验。新版本已经上线，欢迎大家下载使用！官网下载：https://doris.apache.org/download/GitHub下载：h
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR