几个集群的总结(一)solrCloud

总结下常用的几个集群,大概会涉及SolrCloud、Redis、FastDFS、Dubbo、消息中间件(ActiveMq,RocketMq)。

                                                      ——吹雪

SolrCloud部分


SolrCloud环境:zookeeper-3.4.10,solr-7.0.1-2

SolrCloud架构图为下图左侧,右侧为Solr的Master-Slave。

几个集群的总结(一)solrCloud_第1张图片
solr架构

SolrCoud原理:

1、基于zk的分布式集群协调功能来监视整个集群中各节点的状态,当节点出现问题时,通知其他节点,再利用zk的临时节点特性来注册watcher选举出leader节点;基于zk的各节点数据的一致性来保证solr配置文件在整个集群中的数据一致性和高可用,注册对配置文件节点的watcher,可以感知配置文件发生变化与否,可以达到启用最新配置的目的。

2、索引分片,由于索引可能会很大,所以采取分而存之,将索引分成多个shard,每一个shard还可以有自己的备份。(副本:中文对于副本的解释,一个复制物,我的理解是不包括本体,比如说副本有1个,那共有几个,就是副本+本体=2个,但是好多从英文翻译过来的资料,在统计副本个数时,都会包括本体,比如说副本是2,已经包含了本体,所以在语言文化上会导致一些不统一

搭建SolrCloud需要的机器数:

SolrCloud集群实际包括zookeeper和solr两个集群。

对于zookeeper集群,根据奇数原则和过半原则,2*n+1,n取最小值:2*1+1=3,所以最少就是3个机子。

对于SolrCloud,由于是分片机制+备份机制,如有1个分片,那至少需要1个备份,就是2台,这做到了高可用,但对于索引的大小变化,如索引越来越大一台机子装不下时,需要水平扩展。如有2个分片,每个分片至少一个备份,就是需要4台机子。所以solr的数目在不分片时,至少是2台。如果分片,至少是4台。网上好多搭建环境时用3台,这如何分片?分2片,那其中1片就没有备份,分1片,只多出了一个副本,用处不大。到这里,你可能会不同意,你会想到zookeeper的集群3台就可以。这是由于zookeeper的选举leader算法是zab协议,过半原则,而solr的leader选择是利用了zookeeper的临时节点特性,简单理解就是:solr主节点挂掉时,剩余从节点(也就是副本节点)会感知到这个事件,然后去创建zk的临时节点,谁先创建成功谁就成为主节点。

综上所述,我的理解,如果不分片,至少需要3台zk+2台solr=5台(做到了高可用)。如果分片,至少需要3台zk+4台solr=7台(做到了分布式和高可用)。


网上有不少文章,比如下图中的搭建方式,在搭建SolrCloud时,用了3台机子,分了2个片,3个副本,两个片都是同一台机子上,这样做意义何在?既然都在同一台机子,那分片干什么,分布式集集群,难道不是分而治之,分而存之?可以为一个分片规划N(最好大于1)个副本,但不同的分片最好是存不同的机子。这是我的理解。

几个集群的总结(一)solrCloud_第2张图片
3台机子的solr搭建图



安装:

非源码包,解压即可。

提示: (如果是源码包安装,即安装包名称中有src的,解压只是第一步,在linux下,安装之前需要yum instal环境,然后.configure 检查编译环境,make对源代码进行编译,make insall 将生成的可执行文件安装到当前计算机中,最后修改配置文件。redis、fastDFS、dubbo、nginx、keepalived、activeMq、RocketMq安装都大同小异,基本上都这几个步骤。)

我的solr是安装在windows 7 64位机子上:

几个集群的总结(一)solrCloud_第3张图片
本地solr安装示意

4个内容完全一致的solr,每一个启动后都是一个solr实例,

端口号规划:8986,8987,8988,8989

配置略过…

需要注意的是,在liux的.sh脚本和windows的.cmd脚本中,设置变量的区别:

.sh是

SOLR_JAVA_HOME="C:\Java\jdk1.8.0_60"

ZK_HOST="127.0.0.1:2181/solr"

SOLR_HOST="127.0.0.1"

SOLR_TIMEZONE="UTC+8"

而.cmd是

set SOLR_JAVA_HOME="C:\Java\jdk1.8.0_60"

set ZK_HOST="127.0.0.1:2181/solr"

set SOLR_HOST="127.0.0.1"

set SOLR_TIMEZONE="UTC+8"


启动zk

……


上传配置文件至zk

以下是常用的4个命令:

solrstart -cloud -p 8989    //启动

solr stop-cloud -p 8989    //停止

solr zkupconfig -z 127.0.0.1:2181/solr -n store_config -d D:\solrhome\solr1\store_solr_config  //往zk上传配置文件

solr zk rm -z 127.0.0.1:2181 -r /solr/configs/store_config      //删zk上的节点

上传成功后,如下图:

几个集群的总结(一)solrCloud_第4张图片
solr在zk上的节点

Solr节点对应整个集群在zk上的根节点(是solrCloud的根,不是zk的根)。

从zk的zNode可以看出,solrCloud的大致设计思路,比如clusterstat.json存集群的状态信息,collections目前是个叶子节点,其下什么都没有,configs存放配置文件,live_nodes节点下是集群中活动的机子,由于我们还没启动solr,所以目前该节点还是个叶子节点,启动solr后,每一个solr实例都会在该节点下建立一个子节点。除此之外集群中还有一个重要的角色——监控者,在集群中任何机子都有资格精选监控者,监控者信息在overseer_elect,监控者用来监控整个集群的状态,overseer下是监控者用来工作时的一些资源,比如队列。

而SolrCloud正是利用了zk的特性从而做到了分布式协调:集群有多少机子,每个机子的状况,机子之间的互相通信,主从节点的切换。


启动SolrCloud

几个集群的总结(一)solrCloud_第5张图片
启动示意


启动成功后,solr告诉我们,Happysearching!开始快乐的搜索旅程吧!

启动失败后,在solr的日志文件中可以找到详细出错信息,进行调试。

再查看zk节点的变化:

几个集群的总结(一)solrCloud_第6张图片
启动后solr节点在zk上的变化

在live_nodes下有4个节点。在electon节点下也有4个节点,还有一个leader节点,leader节点的内容:

几个集群的总结(一)solrCloud_第7张图片
/solr/overseer_celct/leader节点内容

这说明,监控者是8986端口的节点。在启动solrCloud时,我就是最先启动的8986节点,启动后,8986端口的solr实例会先在/solr/overseer_celc/election节点下创建一个临时节点顺序节点,然后向/solr/overseer_celct/leader节点写入内容,其他的节点启动后,也同样会在/solr/overseer_celc/election节点下创建一个临时节点顺序节点,然后会发现/solr/overseer_celct/leader节点已经有了信息,而且查看信息内容,8986已经注册成为监控者。

(这里值的思考的是,对于监控者节点的选择,为什么不是在/solr/overseer_celct/leader下建立一个子节点,而是采用了在leader节点中写入内容?根据zk的特性,多个客户端向zk请求创建节点时,只会有一个创建成功,谁创建成功,谁就会有特殊的地位(在solrClound中便是监控者),但solr为什么不这样做?根据上图中/solr/overseer_celct/leader节点的内容{"id":"99492852084441148-127.0.0.1:8986_solr-n_0000000015"},注意最后的数字0000000015,再查看election节点的子节点,发现0000000015是最小的编号,而拥有这个编号的8986节点在election节点下是存在的,所以承认8986的地位,这是利用了zk的顺序节点的特性。对于solrCloud而言,谁编号最小谁就是监控者,而8986最先到达,创建顺序节点时的编号最小,因此成为了监控者。由此也可见,solr的监控者选举是通过election节点和leader两个节点共同控制来完成的。这也给我们提供了一种选举的思路,加上之前的提到过的临时节点创建方式,以后有业务需要时也可以借鉴这两种选举做法。)


创建collection

我们有四个solr服务,访问任意一个都可以,这正是集群的好处,负载均衡+高可用,性能也很好。

几个集群的总结(一)solrCloud_第8张图片
创建collection


创建一个collection,shard分片我2,就是我们把这个索引分成两份,放到两台机子上,进行分布式存储,然后再为每一个shard加一个备份,加上本体,副本数一共是2。


导入索引

在solr监控台,导入即可


查看cloud图

几个集群的总结(一)solrCloud_第9张图片
cloud图

8987和8988为shard1下的主从,8987为leader节点。

8986和8989位shard2下的主从,8986位leader节点。

根据上边启动solr时的顺序,8986-8987-8988-8989,可见8986和8987先启动的两台率先分别注册成为了两个主节点。即使8988和8988都down掉,这个集群还是可以工作的,只是没有了备份。为了验证,我们先关掉

8989节点。

此时cloud图如下:

几个集群的总结(一)solrCloud_第10张图片
关掉8989节点后cloud图

可以看到shard2只剩下了8986主节点。

查询一下数据:

几个集群的总结(一)solrCloud_第11张图片
查询数据

集群可以工作。

再关掉8989后,cloud图如下:

几个集群的总结(一)solrCloud_第12张图片
关掉8988后cloud图

观察zk

把关掉的8989和8988节点启动,查看zk节点状态

几个集群的总结(一)solrCloud_第13张图片
4个solr都启动后在zk上的节点示意

可以看出,shard下主节点也是利用zk的临时顺序节点特性来选举出来的。


做个搜索的小测试


两条数据,第一条数据的店铺名称storeName为权重,第二条数据的擅长领域goodArea为权重,在搜索时,我们输入关键词是权重,q为[storeName:权重OR goodArea:权重]返回的字段中加入score(相关度得分)。可以发现是storeName为权重的数据排在了第一行,这条数据的相关度得分为2.25大于第二条数据的1.89。

几个集群的总结(一)solrCloud_第14张图片

现在,如何做才能让第二条数据,就是goodAre为权重的数据排在前边?

根据solr语法的,“^”可以用来提升相关度得分。将q改为[storeName:权重OR goodArea:权重^2],查询结果如下:

几个集群的总结(一)solrCloud_第15张图片

可以看到goodArea为权重的数据排在了前边,它的相关度得分变为了3.78,是之前得分1.89的2倍。

SolrCloud部分完。

你可能感兴趣的:(几个集群的总结(一)solrCloud)