小注解:全原创,一个字一个字敲的,全测试过了,可以跑通,猿猴们,欢迎大家点点关注,收藏点赞走起,持续更新原创文档,通俗易懂
白话:类似mysql中的水平分表,一个表存多了搜索起来卡,就分成多个表进行存储,作用:缓解压力,提高吞吐量
一个索引可以存储超出单个节点硬件限制的大量数据。比如,一个具有 10 亿文档数据的索引占据 1TB 的磁盘空间,而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求,响应太慢。为了解决这个问题,Elasticsearch 提供了将索引划分成多份的能力,每一份就称之为分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点上。
分片很重要,主要有两方面的原因:
至于一个分片怎样分布,它的文档怎样聚合和搜索请求,是完全由 Elasticsearch 管理的,对于作为用户的你来说,这些都是透明的,无需过分关心。
被混淆的概念是,一个Lucene索引 我们在Elasticsearch称作 分片 。 一个Elasticsearch索引 是分片的集合。 当Elasticsearch在索引中搜索的时候, 他发送查询到每一个属于索引的分片(Lucene索引),然后合并每个分片的结果到一个全局的结果集。
白话:也就是分配规格,集群下如果有3个节点,其中一个是主节点,由主节点来分配分片和副本的规格,参考下面系统架构的图
P:分片
R:副本
将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。
##2.ElasticSearch索引概念
对比关系型数据库,创建索引就相当于创建数据库
向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名(数据库名)
文档类型
index 是否索引
PUT 索引名
{
"mappings": {
"properties": {
"name":{
"type": "text" //text可被分词
, "index": true
},
"sex":{
"type": "keyword" //keyword 不可被分词
,"index": true
},
"tel":{
"type": "keyword"
,"index": false //index = false 不可被索引
}
}
}
全局修改
局部修改
向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id/_update
请求体发送JSON,修改内容包含在doc里面
{
"doc":{
"price": 15999.00
}
}
1. 向ES服务器发送==GET==请求:http://127.0.0.1:9200/索引名/_search/q=key:value
向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_search
参数说明
query 条件
{
"query": {}
}
match: 匹配
{
"query": {
"match": {
"category": "小米" // key:字段名 value:查询值
}
}
}
match_phrase 完全匹配 比如小米 那么一段话中小和米两个字必须挨在一起
{
"query": {
"match_phrase": {
"category": "小米"
}
}
}
match_all 查询所有(一般分页查询)
{
"query": {
"match_all": {}
}
}
分页查询
from:从第几条开始查询
size:查询几条
{
"query": {
"match_all": {}java
},
"from": 0, //从第几条开始查询(偏移量)
"size": 2 //每页显示多少条
}
_source 数据源控制(查出你所需要的字段列)
{
"query": {
"match_all": {}
},
"_source": [ //需要显示的字段名
"title",
"price"
]
}
sort 排序
{
"query": {
"match_all": {}
},
"sort": {
"price": { //需要排序的字段
"order": "desc" //key:固定的order value可选asc升序 desc降序
}
}
}
must 相当于mysql中的and
should 相当于mysql中的or
must_not 与must相反 must是必须全部匹配 must_not是必须全部不匹配
filter 过滤
{
"query": {
"bool": {
"must": [
{
"match": {
"category": "小米"
}
},
{
"match": {
"price": 3999
}
}
],
"filter": { //过滤
"range": { //范围查询
"price": { //字段
"gt": 3000 //gt表示大于
}
}
}
}
}
}
使用highlight属性来实现结果高亮显示,需要的字段名称添加到fields内即可,elasticsearch会自动帮我们实现高亮。
{
"query": {
"match_phrase": {
"category": "小米"
}
},
"highlight": {
"fields": {
"category": {}//高亮字段
}
}
}
自定义高亮显示
pre_tags 以什么标签开头
post_tags 以什么标签结尾
{
"query": {
"match_phrase": {
"category": "小米"
}
},
"highlight": {
"pre_tags": "",
"post_tags": "",
"fields": {
"category": {}
}
}
}
terms 分组
默认会显示原始数据 不需要原始数据加上size:0
{
"aggs": { //聚合操作
"price_group": { //给聚合操作取名字 比如这里是对价格分组
"terms": { //分组
"field": "price" //分组字段
}
}
},
"size": 0 //可选 不加则显示原始数据 加了则不显示
}
avg 平均值
默认会显示原始数据 不需要原始数据加上size:0
{
"aggs": { //聚合操作
"price_group": { //给聚合操作取名字 比如这里是对价格分组
"avg": { //分组
"field": "price" //分组字段
}
}
},
"size": 0 //可选 不加则显示原始数据 加了则不显示
}
单台ElasticSearch服务器提供服务,往往都有最大的负载能力,超过这个阀值,服务器的性能就会大大的降低,甚至不可用,所以生产环境中,一般都是运行在指定服务器集群中。
除了负载能力,单点服务器也存在其他问题
配置服务器集群时,集群中节点数量没有限制,大于等于2个节点就可以看作是一个集群,一般出于高性能及高可用方面来考虑,集群中节点数量都是大于3个
下载elasticSearch 地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch
解压elasticSearch压缩包
tar zxvf 文件名
新建es用户
useradd es #新增 es 用户
passwd es #为 es 用户设置密码
userdel -r es #如果错了,可以删除再加
chown -R es:es es目录 #赋予文件夹所有者
修改elasticSearch目录中config/elasticSearch.yml配置文件
cluster.name: elasticsearch #集群名称
node.name: node-1 #节点名称
network.host: 0.0.0.0
http.port: 9200 #端口号
cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
修改系统文件vim /etc/security/limits.conf
# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536
修改系统文件vim /etc/security/limits.d/20-nproc.conf
# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536
修改系统文件vim /etc/sysctl.conf
# 在文件中增加下面内容
# 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
vm.max_map_count=655360
重新加载
sysctl -p
启动软件
下载elasticSearch 地址:点击此处打开elasticSearch下载地址
解压elasticSearch压缩包
tar zxvf 文件名
新建es用户
useradd es #新增 es 用户
passwd es #为 es 用户设置密码
userdel -r es #如果错了,可以删除再加
chown -R es:es es目录 #赋予文件夹所有者
修改elasticSearch目录中config/elasticSearch.yml配置文件
cluster.name: elasticsearch #集群名称
node.name: node-1 #节点名称
network.host: 0.0.0.0
http.port: 9200 #端口号
cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
修改系统文件vim /etc/security/limits.conf
# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536
修改系统文件vim /etc/security/limits.d/20-nproc.conf
# 在文件末尾中增加下面内容
# 每个进程可以打开的文件数的限制
es soft nofile 65536
es hard nofile 65536
修改系统文件vim /etc/sysctl.conf
# 在文件中增加下面内容
# 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
vm.max_map_count=655360
重新加载
sysctl -p
每台服务器都重复1-8的操作
修改config/elasticsearch.yml配置文件
每台节点的配置文件都一样,只需要修改两个地方
第20行cluster.initial_master_nodes: [“node-1”] 中的"node-1"填写主节点的node.name即可
解:文件中的linux1 linux2 linux3是配置的/etc/hosts文件,可以用内网ip来代替,比如:
#集群名称
cluster.name: cluster-es
#节点名称,每个节点的名称不能重复
node.name: node-1
#ip 地址,每个节点的地址不能重复
network.host: linux1
#当前节点是否参与选举主节点资格
node.master: true
#当前节点是否存储数据
node.data: true
#端口号
http.port: 9200
#内网TCP传输监听端口
transport.tcp.port: 9300
#跨域配置 head插件需要这打开这两个配置
http.cors.allow-origin: "*"
http.cors.enabled: true
http.max_content_length: 200mb
#es7.x 之后新增的配置,初始化一个新的集群时需要此配置来选举 master
cluster.initial_master_nodes: ["node-1"]
#es7.x 之后新增的配置,节点发现
discovery.seed_hosts: ["linux1:9300","linux2:9300","linux3:9300"]
gateway.recover_after_nodes: 2
network.tcp.keep_alive: true
network.tcp.no_delay: true
transport.tcp.compress: true
#集群内同时启动的数据任务个数,默认是 2 个
cluster.routing.allocation.cluster_concurrent_rebalance: 16
#添加或删除节点及负载均衡时并发恢复的线程个数,默认 4 个
cluster.routing.allocation.node_concurrent_recoveries: 16
#初始化数据恢复时,并发恢复线程的个数,默认 4 个
cluster.routing.allocation.node_initial_primaries_recoveries: 16