杰哥哥不是个好叔叔

【Elasticsearch】为什么文档知识库落地中离不开ES？

一·背景概述
二·ES概览
三·ES核心特性
- 倒排索引和正排索引
- - 倒排索引是什么？
  - 倒排索引的创建和检索流程了解么？
  - 倒排索引检索流程：
  - 倒排索引由什么组成？
  - 正排索引呢？
  - 倒排索引和正排索引的区别是什么？
  - Elasticsearch 可以针对某些地段不做索引吗？
- 分词器(Analyzer)
- - 分词器有什么用？
  - 常用分词器有哪些?
  - 分词器由什么组成？
四·ES显著优势
- 数据类型
- - Elasticsearch 常见的数据类型有哪些？
  - keyword 和 text 有什么区别？
  - Elasticsearch 是否有数组类型？
  - 可以在 Mapping 中直接修改字段类型吗？
  - 什么是 Nested 数据类型？有什么用？
  - 将多个字段值合并为一个字段怎么做？
- Mapping（映射）
- - 什么是 Mapping?
  - 为什么插入数据不用指定 Mapping？
  - 想要某个字段不被索引怎么做？
  - Canal 增量数据同步 Elasticsearch 的原理了解吗？
  - Elasticsearch 和 MySQL 同步的策略有哪些？
  - Canal 增量数据同步 Elasticsearch 的原理了解吗？
- Elasticsearch 集群
- - Elasticsearch 集群是什么？有什么用？
  - Elasticsearch 集群中的节点角色有哪些？
  - 分片是什么？有什么用？
  - 整个 Elasticsearch 集群的核心就是对所有的分片执行分布存储，索引，负载，路由的工作。
  - 从 Elasticsearch 版本 7 开始，每个索引的主分片数量的默认值为 1，默认的副本分片数为 0。在早期版本中，默认值为 5 个主分片。在生产环境中，副本分片数至少为 1。
  - 查询文档时如何找到对应的分片？
  - 自定义路由有什么好处？
  - 如何查看 Elasticsearch 集群健康状态？
  - Elasticsearch 集群健康状态有哪几种？
  - 如何分析 Elasticsearch 集群异常问题？
- 性能优化
- - Elasticsearch 如何选择硬件配置？
  - Elasticsearch 索引优化策略有哪些？
  - Elasticsearch 查询优化策略有哪些？
我是杰叔叔，一名沪漂的码农，下期再会！

一·背景概述

在开发公司私有文档知识库时，发现文档搜索基本离不开ES，奇了怪了，ES到底有哪些牛的不行的特性？被那么多公司采用，下面我们来唠唠。

二·ES概览

Elasticsearch是一个分布式的、开源的、实时的搜索和分析引擎，基于Apache Lucene构建，旨在提供快速、可扩展、高性能的搜索解决方案。

Lucene又是个啥玩意呢？

Lucene 是一个 Java 语言编写的高性能、全功能的文本搜索引擎库，提供强大的索引和搜索功能，以及拼写检查、高亮显示和高级分析功能。

Lucene看起来挺牛逼的啊，还要ES干嘛？

如果我们直接基于 Lucene 开发，会非常复杂。并且，Lucene 并没有分布式以及高可用的解决方案。像ElasticSearch 就是基于 Lucene 开发的，封装了许多 Lucene 底层功能，提供了简单易用的 RestFul API接口和多种语言的客户端，开箱即用，自带分布式以及高可用的解决方案。

非要用ES吗？MySQL 和 Oracle不是咱也用的6的飞起？

一、性能特点

Elasticsearch

分布式架构：能够将数据分布在多个节点上，实现并行处理查询请求，从而显著提高查询的吞吐量和响应速度。
倒排索引：使用倒排索引技术，允许快速检索，特别适用于全文搜索等场景。
内存优化：通过将索引数据加载到内存中，减少磁盘I/O的需求，实现低延迟和高吞吐量。
缓存机制：利用缓存来进一步加速查询，对于重复的查询请求，可以直接从缓存中返回结果，提高查询效率。
并行处理：支持并行化查询和分片操作，使得查询请求可以在多个节点上并行执行，提高查询效率。

MySQL

高效读写：采用B+树索引，在磁盘上可以快速查找数据，同时支持缓存机制，减少了数据的I/O操作，从而提高了数据的读写效率。
高效插入删除：采用MVCC机制，在并发环境中能够高效地进行数据的插入和删除，并且不会对其他操作造成影响。
高效更新：能够快速地定位需要更新的数据，同时支持缓存机制，能够减少数据的I/O操作，提高了数据的更新效率。
并发性好：支持高并发访问，能够在多用户同时访问时保持较高的性能。

二、适用场景

Elasticsearch
适合需要高性能全文搜索、实时数据分析、日志处理等场景。例如，电商网站的商品搜索、社交媒体平台的内容推荐等。

MySQL
适合需要强事务支持或复杂JOIN操作的场景。例如，金融系统的交易处理、用户管理系统等。

三、优缺点

Elasticsearch

优点：高性能的全文搜索和分析能力；可扩展性强，可以轻松扩展到多个节点；实时索引和搜索数据；提供了简单易用的API和丰富的查询语言。
缺点：数据安全性相对较弱，需要额外的配置和控制来保护数据的安全；在处理大数据时需要消耗大量的计算资源，对硬件要求较高；学习和使用难度较高，需要掌握复杂的查询语法和配置参数；集群管理复杂，需要用户具有一定的技术能力。

MySQL

优点：开源免费，降低了企业的IT成本；拥有庞大的开发者社区，提供了技术支持、插件、第三方工具以及丰富的文档和教程；高效处理大量数据和高并发请求；资源消耗相对较低，有助于降低企业的运营成本；安装配置简单直观；提供了多种图形化管理工具；支持多种编程语言和工具无缝集成；提供了丰富的安全功能，确保数据在传输和存储过程中的安全性。
缺点：对于存储非常大的数据的地方，效率较低；没有良好的开发和调试工具；不支持SQL检查约束；处理交易的效率较低，容易出现数据损坏；难以扩展，不支持自动分片，需要手动维护节点；存储过程较弱；安装与MySQL一致的数据库集群非常困难。

三·ES核心特性

倒排索引和正排索引

倒排索引是什么？

倒排索引也被称作反向索引（inverted index），是用于提高数据检索速度的一种数据结构，空间消耗比较大。倒排索引首先将检索文档进行分词得到多个词语/词条，然后将词语和文档 ID 建立关联，从而提高检索效率。

倒排索引的创建和检索流程了解么？

建立文档列表，每个文档都有一个唯一的文档 ID 与之对应。
通过分词器对文档进行分词，生成类似于 <词语，文档ID> 的一组组数据。
将词语作为索引关键字，记录下词语和文档的对应关系，也就是哪些文档中包含了该词语。

倒排索引检索流程：

根据分词查找对应文档 ID
根据文档 ID 找到文档

倒排索引由什么组成？

单词字典：用于存储单词列表。一般用 B+Tree 或 Hash 拉链法存储，提高查询效率。
倒排列表：记录单词对应的文档集合。分为：
DocID：即文档 id
TF : 单词出现频率，简称词频
Position：单词在文档中出现的位置，用于检索
Offset：偏移量，记录单词开始结束位置，用于高亮显示

正排索引呢？

不同于倒排索引，正排索引将文档 ID 和分词建立关联。
根据词语查询时，必须先逐条获取每个文档，然后判断文档中是否包含所需要的词语，查询效率较低。

倒排索引和正排索引的区别是什么？

正排索引：

优点：维护成本低，新增数据的时候，只要在末尾新增一个 ID
缺点：以 DocID 为索引，查询时需要扫描所有词语，一个一个比较，直至查到关键词，查询效率
较低。

倒排索引：

优点：建立分词和 DocID 关系，大大提高查询效率
缺点：建立倒排索引的成本高。并且，维护起来也比较麻烦，因为文档的每次更新都意味着倒排索引的重建。还有一些搜索精度的问题，比如搜索dogs 和 dog 想要相同匹配结果，这时就需要合适的分词器了

Elasticsearch 可以针对某些地段不做索引吗？

文档会被序列化为字段组成的 JSON 格式保存在 ES 中。我们可以针对某些地段不做索引。
这样可以节省存储空间，但是，同时也会让字段无法被搜索。

分词器(Analyzer)

分词器有什么用？

分词器是搜索引擎的一个核心组件，负责对文档内容进行分词(在 ES 里面被称为 Analysis)，也就是将一个文档转换成单词词典（Term Dictionary）。单词词典是由文档中出现过的所有单词构成的字符串集合。为了满足不同的分词需求，分词器有很多种，不同的分词器分词逻辑可能会不一样。

常用分词器有哪些?

非中文分词器：

Standard Analyzer：标准分词器，也是默认分词器，英文转换成小写，中文只支持单字切分。
Simple Analyzer：简单分词器，通过非字母字符来分割文本信息，英文大写转小写，非英文不进行分词。
Stop Analyzer ：在 SimpleAnalyzer 基础上去除 the，a，is 等词，也就是加入了停用词。
Whitespace Analyzer : 空格分词器，通过空格来分割文本信息，非英文不进行分词。

中文分词器：

IK Analyzer（推荐）：最常用的开源中文分词器，包括两种分词模式：
ik_max_word：细粒度切分模式，会将文本做最细粒度的拆分，尽可能多的拆分出词语
ik_smart：智能模式，会做最粗粒度的拆分
Ansj ：基于 n-Gram+CRF+HMM 的中文分词的 Java 实现，分词速度达到每秒钟大约 200 万字左右（mac air 下测试），准确率能达到 96%以上。实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。
ICU Analyzer：提供 Unicode 支持，更好地支持亚洲语言。
THULAC（THU Lexical Analyzer for Chinese）：清华大学推出的一套中文词法分析工具包，具有中文分词和词性标注功能。
Jcseg ：基于 mmseg 算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能。

分词器由什么组成？

分析器由三种组件组成：
Charater Filters：处理原始文本，例如去除 HTMl 标签。
Tokenizer：按分词器规则切分单词。
Token Filters：对切分后的单词加工，包括转小写，切除停用词，添加近义词
三者顺序：Character Filters —> Tokenizer —> Token Filter
三者个数：CharFilters（0 个或多个） + Tokenizer(一个) + TokenFilters(0 个或多个)
下图是默认分词器 Standard Analyzer 的

四·ES显著优势

数据类型

Elasticsearch 常见的数据类型有哪些？

常见类型：
关键词： keyword 、 constant_keyword ，和 wildcard
数值型： long , integer , short , byte , double , float , half_float , scaled_float
布尔型： boolean
日期型： date , date_nanos
二进制： binary

结构化数据类型：
范围型： integer_range , float_range , long_range , double_range , date_range
ip 地址类型： ip
软件版本： version

文字搜索类型：
非结构化文本： text
包含特殊标记的文本： annotated-text
自动完成建议： completion

对象和关系类型：
嵌套类型： nested 、 join
对象类型： object 、 flattened

空间类型：
地理坐标类型： geo_point
地理形状类型：

keyword 和 text 有什么区别？

keyword 不走分词器，而 text 会走分词器，使用 keyword 关键字查询效率更高，一般在 fields 中定
义 keyword 类型字段

Elasticsearch 是否有数组类型？

在 Elasticsearch 中，没有专门的数组数据类型。默认情况下，任何字段都可以包含零个或多个值，但是，数组中的所有值必须具有相同的数据类型。

可以在 Mapping 中直接修改字段类型吗？

不可以！Elasticsearch 中的 Mapping 有点类似于数据库中的表结构定义，Mapping 中的字段类型只能增加不能修改，否则只能 reindex 重新索引或者重新进行数据建模并导入数据。

什么是 Nested 数据类型？有什么用？

Elasticsearch 官方文档是这样介绍 Nested 数据类型的：
The nested type is a specialised version of the object data type that allows arrays of objects
to be indexed in a way that they can be queried independently of each other.
Nested （嵌套）类型是对象数据类型的特殊版本，它允许对象数组以一种可以相互独立查询的方式进行索引。Nested 数据类型可以避免数组扁平化处理，多个数组的字段会做一个笛卡尔积，导致查询出不存在的数据。

将多个字段值合并为一个字段怎么做？

使用 copy_to ，比如将 first_name 和 last_name 合并为 full_name ，但 full_name 不在查询结果中展示

Mapping（映射）

什么是 Mapping?

Mapping（映射）定义字段名称、数据类型、优化信息（比如是否索引)、分词器，有点类似于数据库中的表结构定义。一个 Index 对应一个 Mapping。

为什么插入数据不用指定 Mapping？

因为在写入文档时，如果索引不存在，Elasticsearch 会自动根据数据类型自动推断 Mapping 信息Dynamic Mapping），但有时候不是很准确。

想要某个字段不被索引怎么做？

在 Mapping 中设置属性 index = false ，则该字段不可作为检索条件，但结果中还是包含该字段与此相关的属性还有 index_options 可以控制倒排索引记录内容，属性有：
docs : 只包括 docID
freqs : 包括 docID/词频
options ：默认属性，docID/词频/

Canal 增量数据同步 Elasticsearch 的原理了解吗？

这个在 Canal 官方文档中有详细介绍到，原理非常简单：

Canal 模拟 MySQL Slave 节点与 MySQL Master 节点的交互协议，把自己伪装成一个 MySQL
Slave 节点，向 MySQL Master 节点请求 binlog；
MySQL Master 节点接收到请求之后，根据偏移量将新的 binlog 发送给 MySQL Slave 节点；
Canal 接收到 binlog 之后，就可以对这部分日志进行解析，获取主库的结构及数据变更。

Elasticsearch 和 MySQL 同步的策略有哪些？

我们可以将同步类型分为全量同步和增量同步。

全量同步即建好 Elasticsearch 索引后一次性导入 MySQL 所有数据。全量同步有很多现成的工具可以用比如go-mysql-elasticsearch、Datax另外，除了插件之外，像我们比较熟悉的 Canal 除了支持 binlog 实时增量同步数据库之外也支持全量同步。
增量同步即对 MySQL 中新增，修改，删除的数据进行同步:
同步双写： 修改数据时同步到 Elasticsearch。这种方式性能较差、存在丢数据风险且会耦合大量数据同步代码，一般不会使用。
异步双写： 修改数据时，使用 MQ 异步写入 Elasticsearch 提高效率。这种方式引入了新的组件和服务，增加了系统整体复杂性。
定时器： 定时同步数据到 Elasticsearch。这种方式时效性差，通常用于数据实时性不高的场景binlog 同步组件 Canal(推荐) ：使用 Canal 可以做到业务代码完全解耦，API 完全解耦，零代码实现准实时同步, Canal 通过解析 MySQL 的 binlog 日志文件进行数据同步。

Canal 增量数据同步 Elasticsearch 的原理了解吗？

这个在 Canal 官方文档中有详细介绍到，原理非常简单：

Canal 模拟 MySQL Slave 节点与 MySQL Master 节点的交互协议，把自己伪装成一个 MySQL
Slave 节点，向 MySQL Master 节点请求 binlog；
MySQL Master 节点接收到请求之后，根据偏移量将新的 binlog 发送给 MySQL Slave 节点；
Canal接收到 binlog 之后，就可以对这部分日志进行解析，获取主库的结构及数据变更

Elasticsearch 集群

Elasticsearch 集群是什么？有什么用？

单台 Elasticsearch 服务器负载能力和存储能力有限，很多时候通过增加服务器配置也没办法满足我们的要求。并且，单个 Elasticsearch 节点会存在单点风险，没有做到高可用。为此，我们需要搭建Elasticsearch 集群。

Elasticsearch 集群说白了就是多个 Elasticsearch 节点的集合，这些节点共同协作，一起提供服务，这样就可以解决单台 Elasticsearch 服务器无法处理的搜索需求和数据存储需求。出于高可用方面的考虑，集群中节点数量建议 3 个以上，并且其中至少两个节点不是仅投票主节点.
Elasticsearch 集群可以很方便地实现横向扩展，我们可以动态添加或者删除 Elasticsearch节点，当有
节点加入集群中或者从集群中移除节点时，集群将会重新平均分布所有的数据。

Elasticsearch 集群中的节点角色有哪些？

Elasticsearch 7.9 之前的版本中的节点类型：数据节点、协调节点、候选主节点、ingest 节点。在Elasticsearch 7.9 以及之后，节点类型升级为节点角色（Node roles）。

节点角色分的很细：数据节点角色、主节点角色、ingest 节点角色、热节点角色等。

节点角色主要是为了解决基于节点类型配置复杂和用户体验差的问题。
Elasticsearch 集群一般是由多个节点共同组成的分布式集群，节点之间互通，彼此配合，共同对外提供搜索和索引服务（节点之间能够将客户端请求转向到合适的节点）。

不同的节点会负责不同的角色，有的负责一个，有的可能负责多个。
在 ES 中我们可以通过配置使一个节点有以下一个或多个角色：

主节点（Master-eligible node）：集群层面的管理，例如创建或删除索引、跟踪哪些节点是集群的一部分，以及决定将哪些分片分配给哪些节点。任何不是仅投票主节点的合格主节点都可以通过主选举过程被选为主节点。
专用备选主节点（Dedicated master-eligible node）： Elasticsearch 集群中，设置了只
能作为主节点的节点。设置专用主节点主要是为了保障集群增大时的稳定性，建议专用主节点个数至少为 3 个。
仅投票主节点（Voting-only master-eligible node）: 仅参与主节点选举投票，不会被选为
主节点，硬件配置可以较低。
数据节点（data node）：数据存储和数据处理比如 CRUD、搜索、聚合。
预处理节点（ingest node）：执行由预处理管道组成的预处理任务。
仅协调节点（coordinating only node）：路由分发请求、聚集搜索或聚合结果。
远程节点（Remote-eligible node）：跨集群检索或跨集群复制。
…
高可用性 (HA) 集群需要至少三个符合主节点条件的节点，其中至少两个节点不是仅投票主节点。即使其中一个节点发生故障，这样的集群也能够选举出一个主节点。

分片是什么？有什么用？

分片（Shard）是集群数据的容器，Index（索引）被分为多个文档碎片存储在分片中，分片又被分配到集群内的各个节点里。当需要查询一个文档时，需要先找到其位于的分片。也就是说，分片是Elasticsearch 在集群内分发数据的单位。每个分片都是一个 Lucene 索引实例，您可以将其视作一个独立的搜索引擎，它能够对 Elasticsearch 集群中的数据子集进行索引并处理相关查询。

整个 Elasticsearch 集群的核心就是对所有的分片执行分布存储，索引，负载，路由的工作。

当集群规模扩大或者缩小时， Elasticsearch 会自动的在各节点中迁移分片，使得数据仍然均匀分布在集群里。Elasticsearch 在对数据进行再平衡时移动分片的速度取决于分片的大小和数量，以及网络和磁盘性能。

一个分片可以是主分片（Primary Shard）或者副本分片（Replica Shard）。一个副本分片只是一个主分片的拷贝。副本分片作为硬件故障时保护数据不丢失的冗余备份，并为搜索和返回文档等读操作提供服务。查询吞吐量可以随着副本分片数量的增加而增长，与此同时，使用分片副本还可以处理查询的发并量。

当我们写索引数据的时候，只能写在主分片上，然后再同步到副本分片。

当主分片出现问题的时候，会从可用的副本分片中选举一个新的主分片。在默认情况下，ElasticSearch会为主分片创建一个副本分片。由于副本分片同样会占用资源，因此，不建议为一个主分片分配过多的副本分片，应该充分结合业务需求来选定副本分片的数量。

从 Elasticsearch 版本 7 开始，每个索引的主分片数量的默认值为 1，默认的副本分片数为 0。在早期版本中，默认值为 5 个主分片。在生产环境中，副本分片数至少为 1。

最后，简单总结一下：
分片是 Elasticsearch 在集群内分发数据的单位。整个 Elasticsearch 集群的核心就是对所有的分片执行分布存储，索引，负载，路由的工作。副本分片主要是为了提高可用性，由于副本分片同样会占用资源，不建议为一个主分片分配过多的副本分片。当我们写索引数据的时候，只能写在主分片上，然后再同步到副本分片。当主分片出现问题的时候，会从可用的副本分片中选举一个新的主分片。

查询文档时如何找到对应的分片？

我们需要查询一个文档的时候，需要先找到其位于那一个分片中。那究竟是如何知道一个文档应该存放在哪个分片中呢?

这个过程是根据路由公式来决定的:
routing 是一个可以配置的变量,默认是使用文档的 id。对 routing 取哈希再除以
number_of_primary_shards (索引创建时指定的分片总数)得到的余数就是对应的分片。
当一个查询请求到达仅协调节点（coordinating only node）后，仅协调节点会根据路由公式计算出目标分片，然后再将请求转发到目标分片的主分片节点上。上面公式也解释了为什么我们要在创建索引的时候就确定好主分片的数量，并且不允许改变索引分片数。因为如果数量变

自定义路由有什么好处？

默认的路由规则会尽量保证数据会均匀地保存到每一个分片上面。

这样做的好处是，一旦某个分片出了故障，ES 集群里的任何索引都不会出现一个文档都查不到的情况，所有索引都只会丢失故障分片上面存储的文档而已，这个给修复故障分片争取了时间。
不过，这种路由规则也有一个弊端，文档均匀分配到多个分片上面了，所以每次查询索引结果都需要向多个分片发送请求，然后再将这些分片返回的结果融合到一起返回到终端。

很显然这样一来系统的压力就会增大很多，如果索引数据量不大的情况下，效率会非常差。
如果我们想要让某一类型的文档都被存储到同一分片的话，可以自定义路由规则。所有的文档 API 请求(get,index,delete,bulk,update)都接受一个叫做 routing 的路由参数，通过这个参数我们可以自定义文档到数据分片的映射规则。

如何查看 Elasticsearch 集群健康状态？

在 Kibana 控制台执行以下命令可以查看集群的健康状态：

 GET /_cluster/health

返回参数及其含义：

Elasticsearch 集群健康状态有哪几种？

Elasticsearch 集群健康状态分为三种：
GREEN （健康状态）：最健康的状态，集群中的主分片和副本分片都可用。
YELLOW （预警状态）：主分片都可用，但存在副本分片不可能。
RED （异常状态）：存在不可用的主分片，搜索结果可能会不完整。

如何分析 Elasticsearch 集群异常问题？

1、找到异常索引
GET /_cat/indices?v&health=yellow
GET /_cat/indices?v&health=red
2、查看详细的异常信息
GET /_cluster/allocation/explain
GET /_cluster/allocation/explai?pretty
3、通过异常信息进一步分析问题的原因。

性能优化

Elasticsearch 如何选择硬件配置？

部署 Elasticsearch 对于机器的 CPU 要求并不高，通常选择 2 核或者 4 核的就差不多了。
Elasticsearch 中的很多操作是比较消耗内存的，如果搜索需求比较大的话，建议选择 16GB 以上的内存。具体如何分配内存呢？通常是 50% 给 ES，50% 留给 Lucene。另外，建议禁止 swap。如果不禁止的话，当内存耗尽时，操作系统就会自动把内存中暂时不使用的数据交换到硬盘中，需要使用的时候再从硬盘交换到内存，频繁硬盘操作对性能影响是致命的。磁盘的速度相对比较慢，尽量使用固态硬盘（SSD）。

Elasticsearch 索引优化策略有哪些？

ES 提供了 Bulk API 支持批量操作，当我们有大量的写任务时，可以使用 Bulk 来进行批量写入。不过，使用 Bulk 请求时，每个请求尽量不要超过几十 M，因为太大会导致内存使用过大。
ES 默认副本数量为 3 个，这样可以提高可用性，但会影响写入索引的效率。某些业务场景下，可以设置副本数量为 1 或者 0，提高写入索引的效率。
ES 在写入数据的时候，采用延迟写入的策略，默认 1 秒之后将内存中 segment 数据刷新到磁盘中，此时我们才能将数据搜索出来。这就是为什么 Elasticsearch 提供的是近实时搜索功能。
使用 ES 的默认 ID 生成策略或使用数字类型 ID 做为主键。
合理的配置使用 index 属性， analyzed 和 not_analyzed ，根据业务需求来控制字段是否分词或不分词。只有 groupby 需求的字段，配置时就设置成 not_analyzed ，以提高查询或聚类的效率。

Elasticsearch 查询优化策略有哪些？

建立冷热索引库（可用固态硬盘存放热库数据，普通硬盘存放冷库数据）
热库数据可以提前预热加载至内存，提高检索效率。
自定义路由规则，让某一类型的文档都被存储到同一分片。
使用 copy_to 将多个字段整合为一个。
控制字段的数量，业务中不使用的字段，就不要索引。
不要返回无用的字段，使用 _source 进行指定。
避免大型文档存储，默认最大长度为 100MB。
使用 keyword 数据类型，该类型不会走分词器，效率大大提高。
开启慢查询配置定位慢查询。
ES 查询的时候，使用 filter 查询会使用 query cache, 如果业务场景中的过滤查询比较多，建议将querycache 设置大一些，以提高查询速度。
尽量避免分页过深。
增加分片副本提高查询吞吐量，避免使用通配符。
…

我是杰叔叔，一名沪漂的码农，下期再会！

你可能感兴趣的:(大数据,搜索引擎)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
Vue CSR 到 Nuxt 3 SSR 迁移：技术实现与问题解决实录二倍速播放前端 vue.js
1.迁移动机与技术选型1.1CSR架构的局限性基于Vue3和Vite构建的客户端渲染(CSR)单页应用(SPA)提供了良好的开发体验和用户交互流畅性。但是其核心局限在于：搜索引擎优化(SEO)：初始HTML响应仅包含一个根div元素，实际内容由JavaScript在浏览器端动态生成。虽然主流搜索引擎（如Google）能够执行部分JavaScript，但其抓取效率和稳定性不如直接获取完整HTML。非
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
手把手教你搭建AI搜图系统：基于BGE-VL+Milvus的完整实现指南
引言图像搜索有何价值？•帮你找身份证：在海量相册里搜索身份证•电商神器：淘宝"拍立淘"让你拍照变订单•设计师救星：3秒找到可商用的高清素材图老搜索vs新搜索的区别老搜索：像查字典，必须输入正确关键词新搜索：像跟人聊天，图片/语音都能搜，还能理解表情包为什么选BGE-VL+Milvus这个王炸组合？•就像给搜索引擎装了"人脑"（BGE-VL理解图片内涵）•加上"闪电手"Milvus（毫秒级匹配海量图
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
好用的酒店预订软件有哪些？酒店预订哪个软件便宜好项目高省
哪个酒店预订App更省钱？想要预订酒店却担心价格过高？试试这些超值的酒店预订App吧！【美团】：专注于三四线城市，性价比超高！经济型酒店最受欢迎，但用户忠诚度稍低。【飞猪】：阿里旗下平台，依托强大系统和大数据。受年轻人喜爱，但产品同质化较突出，需注意商家管控和用户纠纷解决。要领取优惠券，我们需要使用APP或者登录官方网站。在进入APP后，我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘懒虫虫~ 业务解决方案大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1：多线程+缓存方案2：利用中间表+缓存四、总结一、背景2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。其中A表数据量达到1亿
让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验脑袋大大的 uniappx生态专栏前端 javascript vue.js uniapp uniappx
你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天？？壹刻所闻
领证日子和结婚日子大部分都是分开的，所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过，不过根据大数据显示，大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证，两人才是合法夫妻关系，才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了，邀请双方的亲友一起吃了顿饭罢了，不具备法律效应。如果只是
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts