SelectDB技术团队

Apache Doris 在拈花云科的统一数据中台实践，One Size Fits All

作者｜NearFar X Lab 团队洪守伟、陈超、周志银、左益、武超

整理｜SelectDB 内容团队

导读： 无锡拈花云科技服务有限公司（以下简称拈花云科）是由中国创意文旅集成商拈花湾文旅和北京滴普科技有限公司共同孵化组建的。拈花云科以数字化思维为导向，致力于成为文旅目的地数智化服务商。2022 年底，拈花云科 NearFar X Lab 团队在数据需求的驱动下，开始调研并引进 Apache Doris 作为新架构下的数据仓库选型方案。本文主要介绍了拈花云科数据中台架构从 1.0 到 2.0 的演变过程，以及 Apache Doris 在交付型项目和 SaaS 产品中的应用实践，希望本文分享的内容能对大家有所启发。

业务背景

拈花云科的服务对象主要是国内各个景区、景点，业务范围涵盖文旅行业的多个板块，如票务、交通、零售、住宿、餐饮、演绎、游乐、影院、KTV、租赁、服务、会务、康乐、康养、电商、客服、营销、分销、安防等。多业务线条下用户对于数据使用的时效性需求差异较大，需要我们能够提供实时、准实时、T+1 的业务支撑能力。同时根据大部分景区为国有化的特点，我们也需要具备能够提供私有化交付部署及 SaaS 化数据中台产品解决方案的双重服务支撑能力。

数据中台 1.0 - Lambda

早期构建数据中台时，为了优先满足 B 端用户数据整合的需求，以稳定数据输出为出发点，因此我们基于行业中比较成熟的 Lambda 架构形成了数据中台 1.0 。

在数据中台 1.0 架构中分为三层，分别为 Batch Layer，Speed Layer 和 Serving Layer。其中，Batch Layer 用于批量处理全部的数据，Speed Layer 用于处理增量的数据，在 Serving Layer 中综合 Batch Layer 生成的 Batch Views 和 Speed Layer 生成的 Realtime Views，提供给用户查询最终的结果。

Batch Layer： 在我们早期的实施类项目中，单纯以离线 T+1 进行数据支持的项目占了绝大多数。但实施类项目在实现 Lambda 架构的过程中也会面临很多问题。比如数据采集环节，由于项目本身原因业务系统不能开放 DB 的 Binlog 供数据仓库采集，因此只能以 JDBC 的方式完成增量或全量的数据同步，而通过该方式同步的数据往往会由于系统人工补充数据、时间戳不规范等问题产生同步数据差异的情况发生，最终只能通过额外的数据对比逻辑进行校验，以保证其数据的一致性。

Speed Layer： 项目受成本约束较大，大面积基于流的实时计算对于不论是从硬件成本、部署成本还是实施成本、维护成本等角度均难以支撑。基于该原因，在实施类项目中只有部分业务会进行基于流的实时统计计算，同时满足流计算条件的业务上游系统也必须同时满足同步 Binlog 的使用需求。

Serving Layer： 大部分的预计算结果存储在 MySQL 中提供 Report 支持，部分实时场景通过 Merge Query 对外提供 Ad-Hoc 的查询支持。

随着时间的推移，大量的项目交付使用增多，架构的问题也逐渐开始显现：

开发和维护成本高：该架构需要维护两套代码，即批处理和实时处理的代码，这无疑增加了开发和维护的成本。
数据处理复杂度高：Lambda 架构需要处理多个层次的数据，包括原始数据、批处理数据和实时处理数据，需要对不同的数据进行清洗、转换和合并，数据处理的复杂度较高。
实时计算支持有限：业务方对于数据时效性要求越来越高，但是该架构能力有限，无法支持更多、更高要求的的实时计算。
资源利用率低：离线资源较多，但我们仅在凌晨后的调度时间范围内使用，资源利用率不高。
受成本制约：该架构对于我们部分用户而言使用成本较高，难以起到降低成本提高效率的作用。

新架构的设计目标

基于以上架构问题，我们希望实现一套更加灵活的架构方案，同时希望新的架构可以满足日益增高的数据时效性要求。在新方案实现之前，我们必须先对当前的业务应用场景和项目类型进行分析。

我们业务应用场景分为以下四类，这四类场景的特点和需求分别是：

看板类：包括 Web/移动端数据看板和大屏可视化，用于展示景区重要场所的数据，如业务播报（实时在园人数监控、车船调度管理等）、应急管理监控（客流密度监控、景区消防预警、景区能耗监控等）。其组成特点一般为业务汇总指标和监控指标报警，对数据时效性要求较高。
报表类：数据报表以图表形式展示，主要服务于各业务部门的一线业务人员。会更多关注垂直业务的数据覆盖程度，会有钻取需求（也可能通过不同报表来体现不同数据粒度）。一般以景区的业务部门为单位构建报表栏目和分析主题，除财务结算类报表外，一般可接受 T+1 的报表时效。
分析类：自助分析基于较好的数据模型表（数据宽表）实现，对分析人员有一定的数据理解和操作需求，基于我们提供的 BI 分析平台，业务人员可基于此数据范围通过拖拽的方式组合出自己的数据结果，灵活度较高。该场景对数据时效要求不高，更多关注业务数据沉淀和与往期历史数据的对比分析侧重架构的 OLAP 能力。
服务类：一般对接三方系统，由数据中台提供数据计算结果。如画像标签等数据，通过数据接口控制权限提供对外数据服务与其它业务系统集成，需要新架构能够提供稳定的数据服务。

接着我们对项目类型的特点和需求也进行了分析，并确定新架构需要同时提供实施类项目和 SaaS 产品的数据中台支撑能力：

数据中台 2.0 - Apache Doris

结合以上需求，我们计划对原有架构进行升级，并对新架构的 OLAP 引擎进行选型。在对比了 ClickHouse 等 OLAP 引擎后（社区有非常多的对比文章参考，这里不过多赘述），最终选择了 Apache Doris 作为数据中台 2.0 的基座。同时，在数据的同步、集成及计算环节，我们也构建了多套方案来适配以 Apache Doris 为核心的计算链路，以应对不同类型的实施类项目及 SaaS 产品需求。

数据中台 2.0 的核心思路是将 Apache Doris 作为核心的数据仓库，并将其作为实时数据同步中心、核心数据计算中心。数据集成环节将专注于数据同步，而计算交由 Apache Doris 完成或由 Doris 辅助计算引擎完成。同时，我们将在提供多种数据同步至 Apache Doris 的方案以应对不同的项目需求。在这个架构下，我们支持实现实时、准实时、T+1 的计算场景支持，以满足不同业务场景的需求。

新架构数据流转：

数据同步集成：架构 2.0 有多种数据同步方式，我们主要借助 Doris Unique Key 模型完成数据的同步更新。

数仓分层计算：根据项目资源情况分 View/实体表单来构建后面的数据层级（DWD、DWS、ADS）。业务较轻或时效性很高时，通过 View 方式来实现逻辑层面的 DWD，通过这种方式为下游 Ad-hoc 提供宽表查询支持，Doris的谓词下推及 View 优化的能力为使用视图查询带来了便利。而当业务较重时，通过实体表单 + 微批任务进行实现，按照调度依赖关系逐层完成计算，针对使用场景对表单进行优化。
数据计算时效：新架构下的数据时效受具体数据计算链路中的三个方面限制，分别是数据采集时效、批次计算时效、数据查询耗时。在不考虑网络吞吐、消息积压、资源抢占的情况下：

（实施类项目经常会遇到第三方不提供 Binlog 的情况，所以这里把通过批次采集数据也作为一个 case 列出来）

在 Doris 中为了达到更好的计算时效，基于 Doris 的数据计算流程相比在 Hive 中的计算流程可以进行一定的简化，这样可避免过多的冗余计算设计，以此提高计算产出效率。

补充架构能力：

Hadoop：根据不同的项目资源及数据情况来决定是否引入 Hadoop 补充大规模离线计算场景。以实施类项目为例，Doris 可以涵盖大部分核心业务数据计算场景。
MySQL：基于预计算的结果数据可以推送到下游 MySQL 中以供 Report 查询，从而分散 Doris 计算查询的资源消耗，这样可以将资源充分留给核心且时效性要求高的应用或高频批次任务。如果计算资源充足，Doris 也可以直接作为应用层的加速查询 DB，而无须引入其它 DB。

新架构收益

通过引入 Apache Doris，我们成功构建了高时效、低成本的数据中台 2.0，并成功满足了交付型项目和 SaaS 产品两种需求场景下的使用需求。新架构的收益如下：

数据时效性提升：架构 1.0 中大部分业务为 T+1 的支持方式，而在新架构下大部分业务都可实现实时或小时级计算支持。
资源利用率提高：在架构 1.0 中，离线资源在白天大部分时间处于闲置状态。而在新架构下，数据同步、计算（增量/全量）和查询均在同一集群下完成，从而提高了资源利用率。相较于部署一套 CDH，同等资源成本下，部署一套 Doris 可以带来更多的收益。
运维管理成本降低：在原有架构下，实时统计需求需要维护非常长的计算链路。而在新架构下，所有计算仅需在一个数据库中完成，更加简单、高效且易于维护。
易于业务扩展：Doris 的节点扩展操作非常便捷，这对于业务的增量支持非常友好。

新架构的落地实践

我们在 2022 年底首次在测试环境中部署了 Apache Doris 1.1.5 版本，并进行了一些业务数据的导入测试和新架构的可行性验证。在测试后，我们决定在生产环境中落地实践 Apache Doris。第一次生产环境部署时，我们使用了当时最新的 1.2.2 版本。目前，新项目已升级到 1.2.4 版本并使用。Apache Doris 作为新架构下的核心系统，在整个架构中发挥着重要的作用。下面我们将从模型选择、资源规划、表结构同步、计算场景实现、运维保障等几个角度分享我们基于 Doris 的项目落地经验，希望为正在准备落地 Doris 方案的读者带来一些参考。

模型选择

数据模型我们主要应用了 Doris 提供的 Unique 模型和 Aggregate 模型。

Unique 模型

对于 ODS 层的表单来说，我们需要 Doris Table 与源系统数据保持实时同步。为了保证数据同步的一致性，我们采用了 Unique 模型，该模型会根据主键来对数据进行合并。在 1.2.0 版本之前，Unique 模型是 Aggregate 模型的一种特例，使用了 Merge On Read 的实现方式，这种实现方式下 count(*)的查询效率较低。而在 1.2.0 版本推出之后，采用了新的 Merge On Write 的数据更新方式，在 Unique Key 写入过程中，Doris 会对新写入的数据和存量数据进行 Merge 操作，从而大幅优化查询性能。在 Merge 过程中，Doris 会查找 Unique Key 索引，并使用 Page Cache 来优化索引查找效率。因此在使用 1.2 版本中，建议打开 Doris BE 的 Page Cache（在 be.conf文件中增加配置项 disable_storage_page_cache = false）。另外在很多情况下，Unique 模型支持多种谓词的下推，这样表单也可以支持从源表直接建立视图的查询方式。

Aggregate 模型

在某些场景下（如维度列和指标列固定的报表查询），用户只关心最终按维度聚合后的结果，而不需要明细数据的信息。针对这种情况，我们建议使用 Aggregate 模型来创建表，该模型以维度列作为 Aggregate Key 建表。在导入数据时，Key 列相同的行会聚合成一行（目前 Doris 支持 SUM、REPLACE、MIN、MAX 四种聚合方式）。

Doris 会在三个阶段对数据进行聚合：

数据导入的 ETL 阶段，在每一批次导入的数据内部进行聚合；
底层 BE 进行数据 Compaction 的阶段；
数据查询阶段。

聚合完成之后，Doris 最终只会存储聚合后的数据，这种明细表单数据的预聚合处理大大减少了需要存储和管理的数据量。当新的明细数据导入时，它们会和表单中存储的聚合后的数据再进行聚合，以提供实时更新的聚合结果供用户查询。

资源管理

在生产环境中，我们使用一套 Doris 数据仓库支撑了多个下游数据应用系统的使用。这些应用系统对数据访问的资源消耗能力不同，对应的业务重要等级也不相同。为了能够更好管理应用资源的使用，避免资源冲突，我们需要对应用账号进行划分和资源规划，以保证多用户在同一 Doris 集群内进行数据操作时减少相互干扰。而 Doris 的多租户和资源隔离功能，可以帮助我们更合理地分配集群资源。Doris 对于资源隔离控制有两种方式，一是集群内节点级别的资源组划分，二是针对单个查询的资源限制。这里主要介绍下集群内节点级别的资源组划分过程。

第一步：需要梳理规划各场景的用途、重要等级及资源需求等，举例说明：

第二步：对节点资源进行划分、给节点打上 tag 标签：

alter system modify backend "10.10.101.1:9050" set ("tag.location" = "group_a");
alter system modify backend "10.10.101.2:9050" set ("tag.location" = "group_a");
alter system modify backend "10.10.101.3:9050" set ("tag.location" = "group_b");
alter system modify backend "10.10.101.4:9050" set ("tag.location" = "group_b");
alter system modify backend "10.10.101.5:9050" set ("tag.location" = "group_c");
alter system modify backend "10.10.101.6:9050" set ("tag.location" = "group_c");

第三步：给应用下的表单指定资源组分布，将用户数据的不同副本分布在不同资源组内

create table flume_etl
(k1 int, k2 int)
distributed by hash(k1) buckets 1
properties(
   "replication_allocation"="tag.location.group_a:2, tag.location.group_b:1"
)

create table cdc_etl
```
   "replication_allocation"="tag.location.group_b:2, tag.location.group_c:1"

create table etl
```
   "replication_allocation"="tag.location.group_a:1, tag.location.group_c:2"

create table mkui_readonly
```
   "replication_allocation"="tag.location.group_a:2, tag.location.group_c:1"

create table SaaS_readonly
```
   "replication_allocation"="tag.location.group_a:1, tag.location.group_b:1, tag.location.group_c:1"

create table dev
```
   "replication_allocation"="tag.location.group_a:1, tag.location.group_b:1, tag.location.group_c:1"
第四步：设置用户的资源使用权限，来限制某一用户的查询只能使用其指定资源组中的节点来执行。
set property for 'flume_etl' 'resource_tags.location' = 'group_a';
set property for 'cdc_etl' 'resource_tags.location' = 'group_b';
set property for 'etl' 'resource_tags.location' = 'group_c';
set property for 'mkui_readonly' 'resource_tags.location' = 'group_a';
set property for 'SaaS_readonly' 'resource_tags.location' = 'group_a, group_b, group_c';
set property for 'dev' 'resource_tags.location' = 'group_b';
值得一提的是，与社区交流中我们得知在即将发布的 Apache Doris 2.0 版本中还基于 Pipeline 执行引擎增加了 Workload Group 能力。该能力通过对 Workload 进行分组管理，以保证内存和 CPU 资源的精细化管控。通过将 Query 与 Workload Group 相关联，可以限制单个 Query 在 BE 节点上的 CPU 和内存资源的百分比，并可以配置开启资源组的内存软限制。当集群资源紧张时，将自动 Kill 组内占用内存最大的若干个查询任务以减缓集群压力。当集群资源空闲时，一旦 Workload Group 使用资源超过预设值时，多个 Workload 将共享集群可用空闲资源并自动突破阙值，继续使用系统内存以保证查询任务的稳定执行。更详细的 Workload Group 介绍可以参考：https://doris.apache.org/zh-CN/docs/dev/admin-manual/workload-group/
create workload group if not exists etl_group
properties (
   "cpu_share"="10",
   "memory_limit"="30%",
   "max_concurrency" = "10",
   "max_queue_size" = "20",
   "queue_timeout" = "3000"
);
批量建表
初始化完成 Doris 的建表映射往往需要构建许多表单，而单独建表低效且易出错。为此，我们根据官方文档的建议使用 Cloudcanal 进行表结构同步来批量建表，大大提高了数据初始化的效率。
建表时需要注意的是：以 MySQL 为例，MySQL 数据源映射到 Doris 表结构的过程中需要进行一定的表结构调整。在 MySQL 中varchar(n) 类型的字段长度是以字符个数来计算的，而 Doris 是以字节个数计算的。因此，在建表时需要将 Doris varchar 类型字段的长度调整到 MySQL 对应字段长度的 3 倍。在使用 Unique 模型时需要注意建表时 UNIQUE KEY 列要放在 Value 列前面声明，且保证有序排列和设置多副本配置。
除了以上方式，日前新发布的 Doris-Flink-Connector 1.4.0 版本中已集成了 Flink CDC、实现了从 MySQL 等关系型数据库到 Apache Doris 的一键整库同步功能，用户无需提前在 Doris 中建表、可以直接使用 Connector 快速将多个上游业务库的表结构及数据接入到 Doris 中。推荐大家尝试使用。相关链接：https://mp.weixin.qq.com/s/Ur4VpJtjByVL0qQNy_iQBw
计算实现
根据我们对架构 2.0 的规划，我们将所有计算转移在 Doris 中完成。然而在支撑实时和准实时的场景下，具体的技术实现会有所不同，主要区别如下：
实时计算
如上文提到我们会以实时数据采集 + Doris 视图模型的方式提供实时计算结果，而为了在计算过程中达到更高的数据时效支持，应该尽量减少不必要的数据冗余设计。如传统数据仓库会按照 ODS->DWD->DWS->ADS 等分层逐层计算落表。而在实时计算场景下可以适当进行裁剪，裁剪的依据为整体查询时效的满足情况。此外，在实际的业务场景中也会有多层视图嵌套调用的情况。
准实时计算
在业务能接受的准实时场景下（10分钟、30分钟、小时级），可以通过实体表单 + 微批任务实现计算，计算过程按照调度层级依赖关系逐层完成。
通过 Java UDF 生成增量/全量数据
在实际业务中，存在增量/全量的日、月、年等不同时间频度数据生成需求。我们通过 Doris 的 Java UDF 功能(1.2 版本后支持) + 调度系统传参的方式实现了一套脚本动态的生成增量/全量及日、月、年等不同的指标汇总。
实现思路：
 
    period_type：计算频度 D/W/M/Y 代表计算日、周、月、年
  
    run_type：INC（增量）/ DF（全量）是通过传递begin_date,end_datel 来筛选 business_date数据进行汇总。 
     
     增量满足：begin_date(对应计算频度开始日期) <= business_date <= end_date （对应计算频度结束日期） 
     全量满足：begin_date(写死一个业务最小日期) <= business_date <= end_date （对应计算频度结束日期） 
    
  
  
基于以上思路实现etlbegindate函数来返回不同计算频度下增量、全量的 begin_date
etlbegindate(run_type,period_type,end_date)
为了在统计不同频度时能够生成对应频度的识别id 字段，我们还需要实现一个periodid 函数
periodid(period_type,business_date)
该函数的主要功能为：
 
   period_type = ‘D’ 返回 business_date 所在日， ‘YYYYMMDD’ 格式的 period_id 字段 
   period_type = ‘W’ 返回 business_date 所在周的起始日期， ‘YYYYMMDDYYYYMMDD’ 格式的 period_id 字段 
   period_type = ‘M’ 返回 business_date 所在月，‘YYYYMM’ 格式的 period_id 字段 
   period_type = ‘Y’ 返回 business_date 所在年，‘YYYY’ 格式的 period_id 字段 
  
结合 etlbegindate 与 periodid 两个函数，假定当前时间为 2023 年 6 月 16 日则相应的实现如下：
SQL 脚本使用函数示例
 -- 示例Demo
 select ${period_type}                          as period_type -- 统计频度 D/W/M/Y
       ,period_id(${period_type},business_date) as period_id   -- 时间频度ID
       ,count(goods_id)                         as goods_cnt   -- 商品数
  where business_date >= etlbegindate(${run_type},${period_type},${end_date})
    and business_date <= ${end_date}
group by period_id
运行调度前参数配置：
任务运行结果示例：W/M/Y 是的实现方式一致，只是数据返回的 period_id 格式会按照上文描述的格式输出。
基于以上方法，我们高效地为公司 SaaS 产品构建了相应的数据指标库应用。
基于 Doris 的大表优化
我们的业务涉及基于用户页面访问和景区设备日志信息的统计分析业务，这类指标计算需要处理大量日志数据。接下来，我们将介绍如何利用 Doris 提供的功能对数据进行优化处理。
数据分区分桶：
Doris 支持两级分区，第一级叫做 Partition，支持 Range Partitioning 和 List Partitioning 两种分区策略。第二级分区叫做 Bucket，支持 Hash Partitioning 分区策略。
对于用户浏览行为的埋点事件表，我们按照时间做为分区（Range Partitioning）：
在实际应用中，业务的历史冷数据可以按年进行分区，而近期的热数据可以根据数据量增幅按照日、周、月等进行分区。另外，Doris 自 1.2.0 版本后支持批量创建 RANGE 分区，语法简洁灵活。
从 Doris 1.2.2 版本开始，Doris 支持了自动分桶功能，免去了在分桶上面的投入，一个分桶在物理层面为一个 Tablet，官方文档建议 Tablet 大小在 1GB - 10GB 之内，Y因此对于小数据量分桶数不应太多。自动分桶的开启只需要建表时新增一个属性配置：
DISTRIBUTED BY HASH(openid) BUCKETS AUTO PROPERTIES ("estimate_partition_size" = "1G"）
Like Query 和 SEQUENCE_COUNT 介绍
Like Query
在使用埋点日志数据进行漏斗分析时，需要针对某些特定 URL 数据进行汇总分析。这些 URL 中带有参数信息，以 String 或者 Varchar 类型存储为例，在计算过程中需要对含有特定参数的数据进行筛选。
根据该 Issue：https://github.com/apache/doris/pull/10355，我们了解到 Doris 对于 like/not like 有一定的优化处理，操作符可以下推到存储引擎进行数据过滤。因此在这个场景下，我们尝试使用 like 操作符对数据进行筛选处理。
另外在 Apache Doris 2.0 版本中将增加 Ngram BloomFilter 索引，使用该索引可以用来提升 Like Query 的性能，未我们也将进行升级使用。Doris 提供了gram_size 和 bf_size两个参数进行配置，示例如下：
CREATE TABLE `test_ngrambf` (
  `id` int(11),
  `str` varchar(32),
  INDEX idx_str (`str`) USING NGRAM_BF PROPERTIES("gram_size"="3", "bf_size"="256")
) ENGINE=OLAP
DUPLICATE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"replication_num" = "1"
);

mysql> INSERT INTO test_ngrambf VALUES (1, 'hello world'), (2, 'ngram test');
Query OK, 2 rows affected (0.18 sec)
{'label':'insert_fbc5d3eca7204d52_965ce9de51508dec', 'status':'VISIBLE', 'txnId':'11008'}

mysql> SELECT * FROM test_ngrambf WHERE str LIKE '%hel%';
+------+-------------+
| id   | str         |
+------+-------------+
|    1 | hello world |
+------+-------------+
1 row in set (0.03 sec)

mysql> SELECT * FROM test_ngrambf WHERE str LIKE '%abc%';
Empty set (0.02 sec)

mysql> SELECT * FROM test_ngrambf WHERE str LIKE '%llm%';
Empty set (0.04 sec)
下面对 Ngram BloomFilter 索引的原理作简要介绍：
假如将“hello world"存入 Bloom Filter 中，将gram_size 配置为 3，这时会将"hello world"分为["hel", "ell", "llo",...]分别进行存储，每个 gram 通过 N 个哈希函数 h1, h2, …, hn 映射到 Bloom Filter中，对应的索引值设为 1。当处理where column_name like 'hel'这样的查询语句时，'hel'会经过相同哈希函数的映射和 Bloom Filter 进行比较，如果映射出的索引和 Bloom Filter 的索引的值都是 1，那么判断'hel'在Bloom Filter 中（True Positive），但也存在一定概率会将本来不在 Bloom Filter 中的元素判断为在集合中（False Positive），比如上图中的'llm'，但将其判断为不在 Bloom Filter 中的元素（True Negative）一定不会存在，比如图中的过滤条件like 'abc'。
在实际使用 Ngram BloomFilter 索引时有一些注意事项：
 
   使用 Ngram BloomFilter 索引时需要根据实际查询情况合理配置gram_size的大小。小的gram_size 支持搜索查询更多的 String，但是同时也带来更多数量的 ngram 和需要应用更多的哈希函数，这将会增大 False Positive 的概率。 
   因为存在 False Positive 的可能性，Ngram BloomFilter 索引不能被用来处理 column_name != 'hello'或者 column_name not like '%hello%'这样使用负运算符的过滤条件。 
  
SEQUENCE_COUNT
针对用户留存或漏斗分析等指标的计算，可以使用 Doris 提供的 SEQUENCE_COUNT(pattern, timestamp, cond1, cond2, ...) 函数。这里 pattern 参数用来指定用户一系列浏览行为的事件链，比如：
-- 计算用户浏览商品、加入购物车以及支付这一连串事件的数量
SELECT SEQUENCE_COUNT('(?1)(?2)(?3)', timestamp, event = 'view_product', event = 'add_cart', event = 'pay') FROM user_event;
通过 SEQUENCE_COUNT 可以非常方便地计算我们指定的事件链的数量。
Doris Borker 的协同计算
业务中存在部分大数据量的历史数据统计需求，针对这部分需求我们进行了协同计算处理
 
   FlinkCDC 读取 Binglog 实时同步数据到 Doris 明细表 
   Doris 明细表会存储近 30 日热数据（需要进行 TTL 管理） 
   Doris 每日通过 Borker Export 同步一份日增量数据至 HDFS，并加载至 Hive 中 
   Hive 中储存所有明细数据，数据初始化生成计算结果在 Hive 中完成 Borker Load 至 Doris 
   Doris 在生成结果数据时仅生成当前日期数据，每天的增量生成沉淀为历史结果 
   当业务有需要时通过 Borker Export 加载 Hive 全量计算结果刷新 Doris 结果表 
   当业务有基于此明细数据的新开发需求时，可在 Hive 中计算完成初始化结果至 Doris 
  
数据导出（Export）： Export 是 Doris 提供的一种将数据导出的功能。该功能可以将用户指定的表或分区的数据以文本的格式，通过 Broker 进程导出到远端存储上，如 HDFS 或对象存储（支持 S3 协议） 等。用户提交一个 Export 作业后，Doris 会统计这个作业涉及的所有 Tablet，然后对这些 Tablet 进行分组，每组生成一个特殊的查询计划。这些查询计划会读取所包含的 Tablet 上的数据，然后通过 Broker 将数据写到远端存储指定的路径中。
数据导入（Broker load）： Broker Load 是 Doris 的一种异步数据导入方式，可以导入 Hive、HDFS 等数据文件。Doris 在执行 Broker Load 时占用的集群资源比较大，一般适合数据量在几十到几百 GB 级别下使用。同时需要注意的是单个导入 BE 最大的处理量为 3G，如果超过 3G 的导入需求就需要通过调整B roker Load 的导入参数来实现大文件的导入。
联邦查询在数据分析场景下的尝试
由于上游数据源较多，我们仅对常用的数据表单进行了数据仓库采集建模，以便更好地进行管理和使用。对于不常用到的数据表单，我们没有进行入仓，但业务方有时会临时提出未入仓数据的统计需求，针对这种情况，我们可以通过 Doris 的 Multi-Catalog 进行快速响应、完成数据分析 ，待需求常态化后再转换成采集建模的处理方式。
Multi-Catalog 是 Doris 1.2.0 版本中推出的重要功能。该功能支持将多种异构数据源快速的接入 Doris，包括 Hive、Iceberg、Hudi、MySQL、Elasticsearch 和 Greenplum 等。使用 Catalog 功能，可以在 Doris 中统一的完成异构数据源之间的关联计算。Doris 1.2.0 以后的版本官方推荐通过 Resource 来创建 Catalog，这样在多个使用场景下可以复用相同的 Resource。下面是 Doris 本地表与通过 Multi-Catalog 映射的远程表单组合完成关联计算的场景示例。
Multi-Catalog 带来的收益：
 
   更高的灵活性：通过 Multi-Catalog，用户可以灵活地管理不同数据源的数据，并在不同的数据源之间进行数据交换和共享。这可以提高数据应用的可扩展性和灵活性，使其更适应不同的业务需求。 
   高效的多源管理：由于 Multi-Catalog 可以管理多个数据源，用户可以使用多个 Catalog 来查询和处理数据，解决了用户跨库访问不便的问题，从而提高数据应用的效率。 
  
社区中已经有非常多的伙伴基于 Multi-Catalog 功能落地了应用场景。另外如果要深度使用该功能，建议建立专门用于联邦计算的 BE 节点角色，当查询使用 Multi-Catalog 功能时，查询会优先调度到计算节点。
运维保障
守护进程
为了保障 Doris 进程的持续运行，我们按照 Doris 官网的建议在生产环境中将所有实例都的守护进程启动，以保证进程退出后自动拉起。我们还安装部署了Supervisor 来进行进程管理，Supervisor 是用 Python 开发的一套通用的进程管理程序，可以将一个普通的命令行进程变为后台 Daemon 并监控进程状态，当进程异常退出时自动重启。使用守护进程后，Doris 的进程变成了 Supervisor 的子进程，Supervisor 以子进程的 PID 来管理子进程，并可以在异常退出时收到相应的信号量。
配置 Supervisor 时的注意事项：
 
   通过 supervisorctl status查询出来的进程 id 不是 Fe、Be、Broker 的进程 ID，而是启动它们的 Shell 进程 ID。在 start_xxx.sh中会启动真正的 Doris 进程，因此才有了进程树的说法。 
   stopasgroup=true ;是否停止子进程、killasgroup=true ;是否杀死子进程，需要保证这两个参数为true，否则通过 supervisorctl控制 Doris 的后台进程是无效的，这也是通过 Supervisor 守护 Doris 进程的关键。 
  
配置完 Supervisor 后则通过守护进程的方式来管理 FE、BE、Borker……
由于 Superviosr 自带的 Web UI 不支持跨机器管理，当多节点时管理非常不便，这里可以使用 Cesi 来对 Supervisor 进行合并管理：
Grafana 监控报警
关于 Doris 的运行监控，我们按照官网相关内容部署了 Prometheus 和 Grafana ，并进行监控项的采集。同时对于一些关键指标进行了预报警，利用企微 Bot 完成信息推送。
以下为测试环境示例图：
集群CPU空闲情况:
集群内存使用情况: 之前发现集群存在内存泄露
BDBJE 写入情况： 超过秒级可能会出现元数据写入延迟的问题
开始调度运行的 Tablet 数量： 正常情况该值基本为 0 或个位数，出现波动的 Tablet 说明可能在进行 Recovery 或 Balance。
除此之外，我们还使用 QPC/99th Latency……等指标来查看监测集群服务能力，建议可以在 Doris 监控的基础上额外加入集群机器的监控，因为我们的机器部署在VM中，曾经出现过硬盘问题、内存问题、网络波动、专线异常等情况，多一层报警机制就多一份稳定性保障。
总结收益
通过新架构的成功搭建，实现了以 Apache Doris 为核心数据仓库 + OLAP 引擎的使用方式（All in One），有效缩减了数据处理流程，大大降低了投递型项目的实施成本。在旧架构下，需要部署、适配、维护非常多的组件，无论是实施还是运维都会比较繁重。相比之下，新架构下的 Doris 易于部署、扩展和维护，组合方案也灵活多变。在我们近半年的使用时间内，Doris 运行非常稳定，为项目交付提供了强有力的计算服务保障能力。
此外，基于 Apache Doris 丰富的功能、完善的文档，我们可以针对离线和在线场景进行高效且细致的数据开发和优化。通过引入 Doris 我们在数据服务时效性方面也有了大幅提高，当前我们已经成功地落地了多个数据项目，并孵化出了一个基于 Doris 的 SaaS 产品。同时，Doris 拥有一个成熟活跃的社区，SelectDB 技术团队更是为社区提供了一支全职的技术团队，推动产品迭代、解决用户问题，也正是这强有力的技术支持，帮助我们更快上线生产，快速解决了我们在生产运用中遇到的问题。
未来规划
未来，我们将密切关注 Apache Doris 社区的发展，并计划构建基于 K8S 的 Doris 服务方式。在项目交付场景下，常常需要进行整套环境的部署。目前，我们已经在 K8S 上集成了 2.0 版本架构下除 Doris 以外的其他数据服务组件。随着 Doris 社区 2.0 版本全面支持 K8S 的计划，我们也会将方案集成到我们的新体系中，以方便后期的项目投递。除此之外，我们还将结合 Doris 的功能特性提炼基于 Doris 的数仓方法论，优化开发过程。Doris 是一个包容性非常好的存储计算引擎，而想要将原有的数据仓库开发内容全部适配在 Doris 上还需要不断的学习、优化与调整，以充分发挥 Doris 的优势，同时我们也将在此基础上沉淀一套与之相匹配的开发规范。
最后，我非常推荐大家使用 Apache Doris 作为数据项目的解决方案。它具有功能强大、包容性强、社区活跃、迭代更新快等优势，这些优势将助推你的项目达成目标。在此，我要感谢 Apache Doris 社区和 SelectDB 的同学们给予我们的支持和帮助，也祝愿 Apache Doris 社区越来越壮大。

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(apache,大数据,数据库,后端)
        
            
                
                    IK分词
                        初心myp

                        实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
                    
                    什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？
                        daixin8848
缓存redisjava开发语言
                        缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
                    
                    Aop +反射 实现方法版本动态切换
                        

                        需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
                    
                    包含日志获取webshell
                        陈望_ning

                        日志文件关闭：Apache目录下的httpd.conf文件#ErrorLog"logs/error.log"#CustomLog"logs/access.log"common加#号为注释不产生日志文件如果去掉#将会在Apache/logs/目录下产生日志文件linux:access_logerror_logwindows:access.logerror.logaccess_log每一行记录了一次网
                    
                    Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎
                        荣华富贵8
springboot搜索引擎后端缓存redis
                        在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
                    
                    MySQL复习题
                        

                        一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
                    
                    大数据之路：阿里巴巴大数据实践——大数据领域建模综述
                        

                        为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
                    
                    Android GreenDao介绍和Generator生成表对象代码
                        

                        目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
                    
                    java实习生40多天有感
                        别拿爱情当饭吃

                        从5月15日开始，我开始第一步步入社会，我今年大三，在一家上市互联网公司做一名实习生，主要做java后端开发。开始的时候，觉得公司的环境挺不错的，不过因为公司在CBD，所以隔壁的午饭和晚饭都要20+RMB，而且还吃不饱，这让我感觉挺郁闷的。一到下午，我就会犯困（因为饿）。因此，我又不得不买一些干粮在公司屯着。关于技术，有一个比较大的项目在需求调研当中，我们做实习生，就是辅助项目经理，测试功能，并且
                    
                    大数据技术笔记—spring入门
                        卿卿老祖

                        篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
                    
                    Mac OSX 下的mysql数据库文件存放位置
                        Bruuuces
mysqlmacosx位置存放
                        之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
                    
                    mac os 10.9 mysql_MAC OSX 10.9 apache php mysql 环境配置
                        AY05
macos10.9mysql
                        ＃终端内运行sudoapachectlstart#启动Apachesudoapachectlrestart#重启Apachesudoapachectlstop#停止Apache＃配置Apachesudovi/private/etc/apache2/httpd.conf#将里面的这一行去掉前面的##LoadModulephp5_modulelibexec/apache2/libphp5.so＃配置P
                    
                    mac升级mysql_Mac OSX下的MySQL数据库升级
                        weixin_39801714
mac升级mysql
                        MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
                    
                    【MySQL】MySQL数据库如何改名
                        武昌库里写JAVA
面试题汇总与解析springbootvue.jssqljava学习
                        MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
                    
                    HikariCP调试日志深度解析：生产环境故障排查完全指南
                        

                        HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
                    
                    大学社团管理系统（11831）
                        codercode2022
javaspringbootspringechartsspringcloudsentineljava-rocketmq
                        有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
                    
                    前端数据库：IndexedDB从基础到高级使用指南
                        

                        文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
                    
                    修改gitlab默认的语言
                        Victor刘
gitlab
                        文章目录网上的方法1.采用数据库触发器的方法2.登录pg库2.1查看表2.2创建function2.3创建触发器2.4修改历史数据网上的方法网上修改/opt/gitlab/embedded/service/gitlab-rails/config/application.rb的方法，我试了，没生效，没进一步研究1.采用数据库触发器的方法2.登录pg库su-gitlab-psqlpsql-h/var/
                    
                    【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录（三）
                        笙囧同学
java前端状态模式
                        核心功能设计用户管理系统用户管理是整个系统的基础，我设计了完整的用户生命周期管理：用户注册流程验证失败验证通过验证失败验证通过用户名已存在用户名可用失败成功用户访问注册页面填写注册信息前端表单验证显示错误提示提交到后端后端数据验证返回错误信息用户名唯一性检查提示用户名重复密码加密处理保存用户信息保存成功?显示系统错误注册成功跳转登录页面登录认证机制深度解析我实现了一套企业级的多层次安全认证机制：认
                    
                    从零到一：基于差分隐私决策树的客户购买预测系统实战开发
                        笙囧同学
决策树算法机器学习
                        作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
                    
                    从零到一：打造基于GigaChat AI的艺术创作平台 | 笙囧同学的全栈开发实战
                        

                        作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯前言在AI技术飞速发展的今天，如何将前沿的大模型技术与实际应用相结合，一直是我们开发者关注的焦点。今天，笙囧同学将带大家从零开始，构建一个基于GigaChatAI的艺术创作平台，实现React前端+Django后端的完整全栈解决方案。这不仅仅是
                    
                    如何在 Ubuntu 24.04 或 22.04 Linux 上安装和运行 Redis 服务器
                        山岚的运维笔记
Linux运维及使用linux服务器ubunturedis数据库
                        Redis（RemoteDictionaryServer，远程字典服务器）是一种内存数据结构存储，通常用作NoSQL数据库、缓存和消息代理。它是开源的，因此用户可以免费安装，无需支付任何费用。Redis旨在为需要快速数据访问和低延迟的应用程序提供速度和效率。Redis支持多种数据类型，包括字符串（Strings）、列表（Lists）、集合（Sets）、哈希（Hashes）、有序集合（SortedS
                    
                    数据库基础概念梳理
                        22:30Plane-Moon
数据库
                        1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
                    
                    SQL笔记纯干货
                        AI入门修炼
oracle数据库sql
                        软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
                    
                    基于STM32设计的LCD指针式电子钟与日历项目
                        鱼弦
单片机系统合集stm32嵌入式硬件单片机
                        鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于STM32设计的LCD指针式电子钟与日历项目1.介绍基于STM32设计的LCD指针式电子钟与日历项目是一款利用STM32微控制器、LCD显示屏和指针机构实
                    
                    大数据精准获客并实现高转化的核心思路和实现方法
                        2401_88470328
大数据精准获客数据分析数据挖掘大数据需求分析bigdata
                        大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
                    
                    一地鸡毛—一个中年男人的日常2021241
                        随止心语所自欲律

                        2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
                    
                    分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
                        

                        雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
                    
                    【Druid】学习笔记
                        fixAllenSun
学习笔记oracle
                        【Druid】学习笔记【一】简介【1】简介【2】数据库连接池（1）能解决的问题（2）使用数据库连接池的好处【3】监控（1）监控信息采集的StatFilter（2）监控不影响性能（3）SQL参数化合并监控（4）执行次数、返回行数、更新行数和并发监控（5）慢查监控（6）Exception监控（7）区间分布（8）内置监控DEMO【4】Druid基本配置参数介绍【5】Druid相比于其他数据库连接池的优点
                    
                    搜索引擎技术选型
                        dusty_giser

                          近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene  Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
                    
                                312个免费高速HTTP代理IP（能隐藏自己真实IP地址）
                                    yangshangchuan
高速免费superwordHTTP代理
                                      
  
124.88.67.20:843
190.36.223.93:8080
117.147.221.38:8123
122.228.92.103:3128
183.247.211.159:8123
124.88.67.35:81
112.18.51.167:8123
218.28.96.39:3128
49.94.160.198:3128
183.20
                                
                                pull解析和json编码
                                    百合不是茶
androidpull解析json
                                    n.json文件: 
[{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] 
  
pull.xml文件 
<?xml version="1.0" encoding="utf-8"?> 
<stu> 
    <name>java
                                
                                [能源与矿产]石油与地球生态系统
                                    comsci
能源
                                     
      按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 
 
      那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
                                
                                类与对象浅谈
                                    沐刃青蛟
java基础
                                     
       类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
                                
                                新站开始被收录后，我们应该做什么？
                                    IT独行者
PHPseo
                                    新站开始被收录后，我们应该做什么？ 
  
      百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。 
      至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
                                
                                oracle 连接碰到的问题
                                    文强chu
oracle
                                    Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案 
作者：草根IT网 来源：未知 人气：813标签： 
导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
                                
                                Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）
                                    小桔子
java继承swing接口监听
                                            都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。 
编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
                                
                                linux常用的命令
                                    aichenglong
linux常用命令
                                    1 startx切换到图形化界面 
2 man命令:查看帮助信息 
 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 
 name:对命令的简单说明 
 synopsis:命令的使用格式说明 
 description:命令的详细说明信息 
 options:命令的各项说明 
3 date:显示时间 
 语法：date [OPTION]... [+FORMAT] 
 
                                
                                eclipse内存优化
                                    AILIKES
javaeclipsejvmjdk
                                    一 基本说明      在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。     1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
                                
                                关键字的使用探讨
                                    百合不是茶
关键字
                                    //关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的 只能在包中访问*//*final   类 方法 变量 final 类 不能被继承  final 方法 不能被子类覆盖，但可以继承 final 变量 只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
                                
                                JS中定义对象的几种方式
                                    bijian1013
js
                                        1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： 
<html>
<head>
    <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title>
</head>
<script>
    var obj = new Object();
 
                                
                                表驱动法实例
                                    bijian1013
java表驱动法TDD
                                    获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： 
MonthDaysTest.java 
package com.study.test;

import org.junit.Assert;
import org.junit.Test;

import com.study.MonthDays;

public class MonthDaysTest {

	@T
                                
                                LInux启停重启常用服务器的脚本
                                    bit1129
linux
                                    启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 
  
#! /bin/bash

Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo);
Ops=(Start, Stop, Restart);
currentDir=$(pwd);
echo
                                
                                【HBase六】REST操作HBase
                                    bit1129
hbase
                                    HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 
  1. 启动和停止HBase REST 服务 1.1 启动REST服务 
前台启动（默认端口号8080） 
[hadoop@hadoop bin]$ ./hbase rest start 
  
后台启动 
hbase-daemon.sh start rest 
  
启动时指定
                                
                                大话zabbix 3.0设计假设
                                    ronin47

                                    What’s new in Zabbix 2.0? 
去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： 
 
          :: Performance improvements::Trigger related da
                                
                                http错误码大全
                                    byalias
http协议javaweb
                                    响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。 
响应码分五种类型，由它们的第一位数字表示： 
1）1xx：信息，请求收到，继续处理 
2）2xx：成功，行为被成功地接受、理解和采纳 
3）3xx：重定向，为了完成请求，必须进一步执行的动作 
4）4xx：客户端错误，请求包含语法错误或者请求无法实现 
5）5xx：服务器错误，服务器不能实现一种明显无效的请求 
 
 

                                
                                J2EE设计模式-Intercepting Filter
                                    bylijinnan
java设计模式数据结构
                                    Intercepting Filter类似于职责链模式 
有两种实现 
其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： 
 
 

package com.ljn.filter.custom;

import java.util.ArrayList;
                                
                                修改jboss端口
                                    chicony
jboss
                                    修改jboss端口 
  
%JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 
  
中找到 
  
   <!-- The ports-default bindings are obtained by taking the base bindin
                                
                                c++ 用类模版实现数组类
                                    CrazyMizzz
C++
                                    最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 
 
 

#include<iostream>
#include<string>
#include<cassert>
using namespace std;
template<class T>
class Array
{
public:
	//构造函数 
	
                                
                                hadoop dfs.datanode.du.reserved 预留空间配置方法
                                    daizj
hadoop预留空间
                                    对于datanode配置预留空间的方法 为：在hdfs-site.xml添加如下配置 
 <property> 
    <name>dfs.datanode.du.reserved</name> 
    <value>10737418240</value> 
  
 
                                
                                mysql远程访问的设置
                                    dcj3sjt126com
mysql防火墙
                                    第一步: 激活网络设置 你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
                                
                                ios 使用特定的popToViewController返回到相应的Controller
                                    dcj3sjt126com
controller
                                    1、取navigationCtroller中的Controllers
NSArray * ctrlArray = self.navigationController.viewControllers;
2、取出后，执行，
[self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
                                
                                Linux正则表达式和通配符的区别
                                    eksliang
正则表达式通配符和正则表达式的区别通配符
                                    转载请出自出处：http://eksliang.iteye.com/blog/1976579 
 
首先得明白二者是截然不同的 
通配符只能用在shell命令中,用来处理字符串的的匹配。 
判断一个命令是否为bash shell(linux 默认的shell)的内置命令 
 type -t commad  
返回结果含义 
 file  表示为外部命令 
 alias  表示该
                                
                                Ubuntu Mysql Install and CONF
                                    gengzg
Install
                                    http://www.navicat.com.cn/download/navicat-for-mysql
    Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html  
      
    Step2：进入下载目录，解压压缩包：tar -zxvf  navicat11_mysql_en.tar.gz  
                                
                                批处理，删除文件bat
                                    huqiji
windowsdos
                                    @echo off
::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。
::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。
::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log）
rem 指定待删除文件的存放路径
set SrcDir=C:/Test/BatHome
rem 指定天数
set DaysAgo=1
                                
                                跨浏览器兼容的HTML5视频音频播放器
                                    天梯梦
html5
                                    HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。    How to enable <video> and <audio> tags in 
                                
                                Bundle自定义数据传递
                                    hm4123660
androidSerializable自定义数据传递BundleParcelable
                                          我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 
  
把数据放到Intent
                                
                                C＃：异步编程和线程的使用（.NET 4.5 ）
                                    powertoolsteam
.net线程C#异步编程
                                    异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。 
本文中涉及关键知识点 
1. 异步编程 
2. 线程的使用 
3. 基于任务的异步模式 
4. 并行编程 
5. 总结 
 
  异步编程  
 
什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
                                
                                spark 查看 job history 日志
                                    Stark_Summer
日志sparkhistoryjob
                                    SPARK_HOME/conf 下:  
spark-defaults.conf 增加如下内容 
spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true  
spark-env.sh 增加如下内容 
export SP
                                
                                SSH框架搭建
                                    wangxiukai2015eye
springHibernatestruts
                                    MyEclipse搭建SSH框架 Struts Spring Hibernate 
1、new一个web project。 
2、右键项目，为项目添加Struts支持。 
   选择Struts2 Core Libraries -<MyEclipes-Library> 
     点击Finish。src目录下多了struts
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.