Richaaaard

ElasticSearch 2 (8) - 概览与简介

摘要

分布式集群架构，具有高扩充性，可随时增加或移除节点，并保证数据正确。
使用Apache Lucene储存JSON文件，提供全文搜索功能
所有操作均可透过RESTful API完成
跨平台，Java写成

版本

elasticsearch版本: elasticsearch-2.2.0

内容

为了搜索，你懂的

有谁在使用？

还有谁在用？

用来做什么？

记录
搜寻
分析

与关系数据库有什么不一样？

索引、类型？

关系数据库＝> 数据库 => 表＝> 行记录 => 列

ElasticSearch ＝> 索引 => 类型＝> 文件 => 字段

如何使用

如何存入？

PUT /megacorp/employee/1
{
    “first_name": "John",
    "last_name" : "Smith",
    "age" : 25,
    "about" : "I am hero",
    "interests": [ "sports", "music" ]
}

创建megacorp的索引 Index
在里面创建一个employee的类型 Type
在里面建立一个_id是1的JSON文件 Document

如何读取？

GET /megacorp/employee/1

或

GET /megacorp/employee/_search?q=music

或

GET /megacorp/_search?q=hero

如何回传？

{
    ……
    "took": 4,
    "hits": {
        "total": 1,
        "hits": [
            {
                "_index": "megacorp",
                "_type": "employee",
                "_id": "1",
                "_score": 0.095891505,
                "_source": {
                    "first_name": "John",
                    ……
                }
            }
        ]
    }
}

集群里的日子

Cluster由一个或以上具有相同cluster.name的ElasticSearch节点所组成。当有节点加入或移除时，cluster会自动平均分配数据。
Cluster中会自动选出一个主节点负责cluster的变动，例如新增节点或创建新的Index。
主节点可以不参与文件操作或搜索，因此只有一个主节点不会导致瓶颈。
我们可以发送请求到任一节点，它会清楚在cluster中该如何处理，并回传给我们最终结果。

Cluster的健康状态

GET /_cluster/health

GREEN 所有的主要（master）与复制（replica）的shard都是启动的。
YELLOW 所有的主要shard都是启动的，但复制的没有。
RED 所有的主要与复制的shard都没有启动。

创建索引

PUT /blogs
{
    "settings" : {
        "number_of_shards" : 3,
        "number_of_replicas" : 1
    }
}

创建一个名为blogs的Index，并设定它有3个主shard每个主shard总共要有一个副本shard在其他机器。

一个节点的时候

此时cluster健康状态为黄色，因为没有分配副本shard到其他机器。此时ElasticSearch可以正常运作，但是数据若遭到硬件问题时无法复原。

加入第二、第三个节点

此时cluster健康状态为绿色，因所有shard都启动了。此时其中一个节点遇到硬件问题都不会有影响。

增加复制的shard

PUT /blogs/_settings
{
    "number_of_replicas" : 2
}

如此一来，坏掉两个节点也不影响。

数据如何分配到shard？

shard = hash(routing) % number_of_primary_shards

当有文件要储存进入Index时，ElasticSearch经过上面的计算后决定要把该文件存储到哪一个shard。

routing为任意字符串，预设为文件上的_id，可被改为其他的值。透过改变routing可以决定文件要储存到哪个shard。

当新增或删除文件的时候

Node 1 收到新增或删除请求。
Node 1 算出请求的文件是属于Shard 0，因此将请求转给Node 3。
Node 3 完成请求时，会再将请求转给复制的shard所在的Node 1与Node 2，并确定他们也都完成，此请求才算是成功。

当取得指定文件的时候

Node 1 收到获取请求。
Node 1 算出请求的文件是在Shard 0，而三台机器都有Shard 0，以上图为例，它会将请求转给Node 2。
Node 2 将文件回传给Node 1，再回传给使用者。

问题：当多个Node上都具有相同shard时，主Node如何转发请求？

当更新文件的时候

Node 1 收到更新的请求。
Node 1 算出请求的文件属于Shard 0，因此将请求转给Node 3。
Node 3 将文件取出后更新_source并尝试重新索引。此步骤可能重复retry_on_conflict次数。
Node 3 完成请求时，会再将新的文件传给复制的shard所在的Node 1与Node 2，并确定他们也都完成，此请求才算是成功。

问题：此种情况Node 1是否会优先将请求转给主Shard所在Node？
问题：如果超过重复次数，系统行为如何？

分布式文件存储

如何制作索引？

假如有12条date是2014-xx-xx的文件。但只有一个文件的date是2014-09-15。那我们发送以下请求：

GET /_search?q=2014

# 12 results

GET /_search?q=2014-09-15

# 12 results !

GET /_search?q=date:2014-09-15

# 1 result

GET /_search?q=date:2014

# 0 results !

结果为什么这么奇怪？

映射与分析

跨字段搜索

当存储文件时，ElasticSearch预设会另外存储一个_all字段。该字段预设由所有字段串接而成，并使用inverted index制作索引提供全文搜索。例如：

{
    "tweet": "However did I manage before Elasticsearch?",
    "date": "2014-09-14",
    "name": "Mary Jones",
    "user_id": 1
}

该文件的_all如下：

"However did I manage before Elasticsearch? 2014-09-14 Mary Jones 1"

映射

当有文件存储进来时，ElasticSearch预设会为该type自动生成mapping，用来决定如何制作索引以提供搜索。

{
    "gb": {
        "mappings": {
            "tweet": {
                "properties": {
                    "date": {
                        "type": "date",
                        "format": "dateOptionalTime"
                    },
                    "name": {
                        "type": "string"
                    },
                    "tweet": {
                        "type": "string"
                    },
                    "user_id": {
                        "type": "long"
                    }
                }
            }
        }
    }
}

exact value 与full text

ElasticSearch把值分成两类：exact value 与full text。
当针对exact value的字段搜索时，使用布尔判断，例如：Foo != foo。
当针对full text的字段搜索时，则是计算相关程度，例如：UK与United Kingdom相关、jumping与leap也相关。

Inverted Index

ElasticSearch用inverted index建立索引，提供全文搜索。考虑以下两份文件：

The quick brown fox jumped over the lazy dog

与

Quick brown foxes leap over lazy dogs in summer

建立出来的inverted index看起来大概如下表。

---------------------------------------
    Term    |   Doc_1   |   Doc_2
---------------------------------------
    Quick   |           |   X
    The     |   X       |
    brown   |   X       |   X
    dog     |   X       |
    dogs    |           |   X
    fox     |   X       |
    foxes   |           |   X
    in      |           |   X
    jumped  |   X       |
    lazy    |   X       |   X
    leap    |           |   X
    over    |   X       |   X
    quick   |   X       |
    summer  |           |   X
    the     |   X       |
---------------------------------------

搜索“quick brown”的结果如下表。

---------------------------------------
    Term    |   Doc_1   |   Doc_2
---------------------------------------
    brown   |   X       |   X
---------------------------------------
    quick   |   X       |
---------------------------------------
    Total   |   2       |   1
---------------------------------------

此表还可以优化，例如
- Quick可以变成quick
- foxes，dogs可以变成fox与dog
- jumped，leap可以变成jump
这种分词（tokenization）、正规化（normalization）过程叫做analysis

优化结果如下

---------------------------------------
    Term    |   Doc_1   |   Doc_2
---------------------------------------
    brown   |   X       |   X
    dog     |   X       |   X
    fox     |   X       |   X
    in      |           |   X
    jump    |   X       |   X
    lazy    |   X       |   X
    over    |   X       |   X
    quick   |   X       |   X
    summer  |           |   X
    the     |   X       |   X
---------------------------------------

Analysis与Analyzers

Analysis程序由Analyzer完成，Analyzer由下面三个功能组成：

Character filters

首先，字符串先依次经过character filters处理过，再进行分词。例如可能将html标签移除，或将 & 转换为 and。
Tokenizer

分词器就是将字符串切为许多有意义的单词。
Token filters

每个单词再依序经过token filters做最后处理。例如可能将Quick变成quick、把leap换成jump。

中文分词

ik分词器或mmseg分词器
- https://github.com/medcl/elasticsearch-analysis-ik
- https://github.com/medcl/elasticsearch-analysis-mmseg
Lucene Smart Chinese Analysis

回答之前的问题

假如有12条date是2014-xx-xx的文件。但只有一个文件的date是2014-09-15。那我们发送以下请求：

用2014去全文搜索_all字段
```
GET /_search?q=2014 
```
# 12 results
2014-09-05经过分析后变成使用2014,09,15去全文搜索_all字段，由于每份文件都有2014所以全部相关。
```
GET /_search?q=2014-09-15 
```
# 12 results !
针对date字段搜索exact value
```
GET /_search?q=date:2014-09-15 
```
# 1 result
针对date字段搜索exact value，没有文件的date是2014
GET /_search?q=date:2014

# 0 results !

数据是分布式存储的

分布式搜索

ElasticSearch将搜索分成两个阶段，来完成在分布式系统中的搜索与排序：query与fetch。
排序的其中一个目的是为了分页，考虑一下请求：
```
GET /_search
{
    "from": 90,
    "size": 10
}   
```

query阶段

Node 3 收到搜索请求后制作一个大小为from + size = 100的priority queue来排序。
Node 3 将搜索请求转给其他每个shard，此例为0号与1号。每个shard将自己搜索，并用priority queue排序出前from + size = 100个结果。
每个shard将各自结果的IDs与排序值回传给Node 3，Node 3再将这些结果加入priority queue中。

问题：为什么每个Node都是from + size = 100个结果？

fetch阶段

Node 3 将排序完的IDs取出需要的部分，即最后10笔，再发送Multi-GET请求跟文件所在的shard取得完整的文件。
shard 各自收到请求后，取出文件，若需要的话再经过处理，例如加上metadata与片段高亮，再回传给Node 3。
Node 3 取得所有结果后再回传给客户端。

在分布式系统中的排序与分页

ElasticSearch搜索结果预设只会回传10个经过_score排序的文件。
我们可以透过size与from参数，取得其他分页的结果。例如
```
GET /_search?size=10&from=10000
```
但是在分布式系统中分页的成本非常高。预设一个Index有5个shard，若要取出第1000页的内容，必须从每个shard取出前10010个文件。再将总共50050个结果重新排序取出10个（10001 ～ 100010）。因此若要取出大量数据，不建议使用排序与分页的功能。

scan与scroll

GET /old_index/_search?search_type=scan&scroll=1m
{
    "query": { "match_all": {}},
    "size": 1000
}

设定 search_type = scan，这样一来ElasticSearch不会对结果进行排序。
设定scroll ＝ 1m，将会对这个搜索建立快照，并维持一分钟。根据回传的_scroll_id可以取得下一批的结果。经由size参数可以设定一个shard一批最多取多少文件，因此每一批取得的数量最多为
```
size * number_of_primary_shards
```
透过scan与scroll，我们可以批次取得大量的文件，而且不会有分页成本。若有需要重新索引整个index时，可以使用此方法完成。

最佳化Index

Index 设定

虽然ElasticSearch在存入文件的时候就会自动创建Index，但使用预设设定可能不是个好主意。例如：

主要的shard数量不能够被修改
自动mapping可能会猜错
使用不符需求的Analyzer

这些设定都需要在存储数据之前设定完成，否则将会需要重新索引整个index。

除了手动设定index之外，也可以使用index template自动套用设定。

mapping的部分则可以设定dynamic_templates自动套用。

别名零宕机Zero downtime

若想要改变已经既有字段的索引方式，例如改变Analyzer。将需要重新索引整个index，否则既有的数据与新索引的不一致。

利用Index别名，可以做到Zero downtime的重新索引。

Application请求的index叫做my_index。实际上my_index是个别名，指到的是my_index_v1。
若要重新索引，则创建新的my_index_v2，并套用新的设定。再透过scan与scroll将文件从my_index_v1放入my_index_v2。
最后将my_index别名导向my_index_v2即可。

Shard内部

shard是一个低阶的工作单元，事实上是一个Lucene实例，负责文件的存储与搜索。
inverted index由shard创建，并写入磁盘，而且建立好的inverted index不会被更改。

不会被修改的inverted index

inverted index的不变性带来许多好处，如：

当多个processes来读取时，不需要锁定。
一旦被读入系统的cache，将会一直保留在cache中，如此一来便不用再访问磁盘。

更新inverted index

Lucene 带来了per-segment search的概念，segment就是一个inverted index。既有的segment不被改变，因此当有新文件存入的时候，就建立新的segment；若更新或删除文件时，则另外将旧文件标记.del档案。而搜索时，就依序对各个segment搜索。

合并segments

然而随着时间经过，segment数量越来越多，搜索成本也越来越大。ElasticSearch会定期将segment合并，同时一除掉那些被标记为删除的文件。

问题：如何定期？

参考

参考来源:

《ElasticSearch: The Definitive Guide》

Slideshare: Elasticsearch 簡介

SlideShare: What is in a Lucene index?

结束

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
程翔授《评价一篇记叙文》行吟斯基
桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
力扣热题100-------54. 螺旋矩阵海航Java之路力扣 leetcode 矩阵 java
给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
密码正则验证：大小写字母、数字、特殊字符至少8位 qq_21875331 渐进式的成长
正则表达式：密码必须包含大写字母、数字、特殊字符（四种里至少三种，且至少8位）写法一：/((^(?=.*[a-z])(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[a-z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

ElasticSearch 2 (8) - 概览与简介

ElasticSearch 2 (8) - 概览与简介

摘要

版本

内容

为了搜索，你懂的

有谁在使用？

还有谁在用？

用来做什么？

与关系数据库有什么不一样？

索引、类型？

如何使用

如何存入？

如何读取？

如何回传？

集群里的日子

Cluster的健康状态

创建索引

一个节点的时候

加入第二、第三个节点

增加复制的shard

数据如何分配到shard？

当新增或删除文件的时候

当取得指定文件的时候

当更新文件的时候

分布式文件存储

如何制作索引？

结果为什么这么奇怪？

映射与分析

跨字段搜索

映射

exact value 与full text

Inverted Index

Analysis与Analyzers

中文分词

回答之前的问题

数据是分布式存储的

分布式搜索

query阶段

fetch阶段

在分布式系统中的排序与分页

scan与scroll

最佳化Index

Index 设定

别名零宕机Zero downtime

Shard内部

不会被修改的inverted index

更新inverted index

合并segments

参考

结束

你可能感兴趣的:(ElasticSearch 2 (8) - 概览与简介)