elasticsearch analyzer 学习笔记

基本定义

analyzer执行将输入字符流分解为token的过程

使用场景

  1. 在indexing的时候,也即在建立索引的时候

  2. 在searching的时候,也即在搜索时,分析需要搜索的词语

analysis

Character filtering (字符过滤器): 使用字符过滤器转换字符

Breaking text into tokens (把文字转化为标记): 将文本分成一组一个或多个标记

Token filtering:使用标记过滤器转换每个标记

Token indexing:把这些标记存于index中

组成部分

Char Filter: 字符过滤器的工作是执行清除任务,例如剥离HTML标记,还有上面的把“&”转换为“and”字符串

Tokenizer: 下一步是将文本拆分为称为标记的术语(分词)。 这是由tokenizer完成的。

Token filter: 一旦创建了token,它们就会被传递给token filter,这些过滤器会对token进行规范化

Token filter可以更改token,删除术语或向token添加术语。

你可能感兴趣的:(elasticsearch,代码分析及扩展,elasticsearch,analyzer,token)