ES6.8.6 分词器安装&使用、查询分词结果（内置分词器、icu、ik、pinyin分词器）

文章目录

- ES环境
- 默认（内置）分词器
- - standard
  - - 示例一：英文分词结果
    - 示例二：中文分词结果
  - simple
  - whitespace
  - stop
  - keyword
- icu分词器
- - 下载&安装
  - - 方式一：下载压缩包安装
    - 方式二：命令行安装
  - 确认安装状态
  - - 方式一：命令行查询安装了哪些分词器
    - 方式二：安装后重启es，重启后控制台打印加载分词器
  - icu分词器的简单使用
- IK分词器
- - 下载&安装
  - - 方式一：下载压缩包安装
    - 方式二：命令行安装
  - 确认安装状态
  - - 方式一：命令行查询安装了哪些分词器
    - 方式二：安装后重启es，重启后控制台打印加载分词器
  - ik分词器的简单使用
  - - ik_smart：粗粒度分词模式
    - ik_max_word：细粒度分词模式
- pinyin分词器
- - 源码下载、编译、打包
  - 确认安装状态
  - - 方式一：命令行查询安装了哪些分词器
    - 方式二：安装后重启es，重启后控制台打印加载分词器
  - pinyin分词器参数
  - pinyin分词器简单使用
  - - 拼音分词：输入的拼音进行拆分
    - 汉字转拼音分词：输入的汉字拆分为若干个拼音
  - pinyin分词器查询数据（示例）
  - - 创建指定pinyin分词器的索引：pinyin_news
    - 批量插入一些数据（_bulk），做查询演示
    - 使用拼音查询
    - 为什么输入pinyin能匹配到结果呢？
- 总结
- 补充
- 参考链接

ES环境

elasticsearch6.8.6版本：已安装ik分词器、icu分词器、pinyin分词器（分词器版本要和es版本一致）
postman测试工具
视图工具elasticsearch-head（https://github.com/mobz/elasticsearch-head）

注意！

仅测试分词器的简单基本应用，更高级的用法不在此测试
以下所有关于分词器的测试都使用news 索引及数据（映射不配置分词器）
以下postman截图中{{domain}}等于http://127.0.0.1:9200
模拟数据

默认（内置）分词器

【ES官网，分词器概述】

【默认分词器的使用参考官网。如何设置默认分词器(setting)？如何为字段text类型设置分词方式(mapping)？】

内置分词器不需要安装，es自带。这些分词器只能对英文进行分词处理，不能识别中文短语。在创建索引的时候不单独指定分词器，使用的就是es默认分词器standard。

standard

es默认分词器，按词切分。英文会被切分为一个一个单词，中文会被切分为一个一个字。

示例一：英文分词结果

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"standard","text":"Introduction to Sanmao"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "standard", # 内置分词器名称，默认分词器
    "text": "Introduction to Sanmao" # 需要分词的文本
}

看对应文本的分词结果：
standard分词器把英文大写全部转为小写，每个单词分开。

{
    "tokens": [
        {
            "token": "introduction",
            "start_offset": 0,
            "end_offset": 12,
            "type": "",
            "position": 0
        },
        {
            "token": "to",
            "start_offset": 13,
            "end_offset": 15,
            "type": "",
            "position": 1
        },
        {
            "token": "sanmao",
            "start_offset": 16,
            "end_offset": 22,
            "type": "",
            "position": 2
        }
    ]
}

示例二：中文分词结果

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"standard","text":"三毛简介"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "standard", # 内置分词器名称，默认分词器
    "text": "三毛简介" # 需要分词的中文文本
}

        看对应文本的分词结果：
        standard分词器把中文的每个字分开。
        如果按照这个分词结果到news索引中的title字段匹配中文数据，那结果可想而知：它会把title中所有包含三``毛``简``介的数据全部匹配出来。匹配出莫名其妙的数据会非常让人崩溃的！！！

{
    "tokens": [
        {
            "token": "三",
            "start_offset": 0,
            "end_offset": 1,
            "type": "",
            "position": 0
        },
        {
            "token": "毛",
            "start_offset": 1,
            "end_offset": 2,
            "type": "",
            "position": 1
        },
        {
            "token": "简",
            "start_offset": 2,
            "end_offset": 3,
            "type": "",
            "position": 2
        },
        {
            "token": "介",
            "start_offset": 3,
            "end_offset": 4,
            "type": "",
            "position": 3
        }
    ]
}

simple

es分词器simple，按非字母的字符分词，例如：数字、标点符号、特殊字符等，会去掉非字母的词，大写字母统一转换成小写。

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"simple","text":"Introduction to Sanmao 三毛简介：三毛生平介绍...全文1800字"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "simple", # 内置分词器simple
    "text": "Introduction to Sanmao 三毛简介：三毛生平介绍...全文1800字" # 需要分词的文本
}

看对应文本的分词结果：
simple分词器把英文大写全部转为小写，去掉了非字母、非中文的词并把结果做了分割。

{
    "tokens": [
        {
            "token": "introduction",
            "start_offset": 0,
            "end_offset": 12,
            "type": "word",
            "position": 0
        },
        {
            "token": "to",
            "start_offset": 13,
            "end_offset": 15,
            "type": "word",
            "position": 1
        },
        {
            "token": "sanmao",
            "start_offset": 16,
            "end_offset": 22,
            "type": "word",
            "position": 2
        },
        {
            "token": "三毛简介",
            "start_offset": 23,
            "end_offset": 27,
            "type": "word",
            "position": 3
        },
        {
            "token": "三毛生平介绍",
            "start_offset": 28,
            "end_offset": 34,
            "type": "word",
            "position": 4
        },
        {
            "token": "全文",
            "start_offset": 37,
            "end_offset": 39,
            "type": "word",
            "position": 5
        },
        {
            "token": "字",
            "start_offset": 43,
            "end_offset": 44,
            "type": "word",
            "position": 6
        }
    ]
}

whitespace

按照空格进行分词，相当于按照(多)空格split了一下，大写字母不会转换成小写。

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"whitespace","text":"Introduction to Sanmao   三毛简介：三毛生平介绍...全文1800字"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "whitespace", # 空格分词器
    "text": "Introduction to Sanmao   三毛简介：三毛生平介绍...全文1800字"
}

看对应文本的分词结果：
whitespace仅按照空格分割（也可以按照多空格分割），不处理大小写。

{
    "tokens": [
        {
            "token": "Introduction",
            "start_offset": 0,
            "end_offset": 12,
            "type": "word",
            "position": 0
        },
        {
            "token": "to",
            "start_offset": 13,
            "end_offset": 15,
            "type": "word",
            "position": 1
        },
        {
            "token": "Sanmao",
            "start_offset": 16,
            "end_offset": 22,
            "type": "word",
            "position": 2
        },
        {
            "token": "三毛简介：三毛生平介绍...全文1800字",
            "start_offset": 25,
            "end_offset": 46,
            "type": "word",
            "position": 3
        }
    ]
}

stop

停用词分词器。会去掉无意义的词、字符，例如：the、a、an、of 等，大写字母统一转换成小写。（中文无效，这、那）

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"stop","text":"This is a Introduction of Sanmao. | 这是一个三毛介绍。"}' http://127.0.0.1:9200/news/_analyze

# -d：请求参数说明
{
    "analyzer": "stop", # 空格分词器
    "text": "This is a Introduction of Sanmao. | 这是一个三毛介绍。"
}

看对应文本的分词结果：
stop分词器：英文中停用词、特殊字符、无意义词去除，并按照这些词分割。但是中文的停用词无效，在英文中，类似于中文里“嗯、啊、这、是、哦”这些无意义的词都会被去掉，其他单词保留。

{
    "tokens": [
        {
            "token": "introduction",
            "start_offset": 10,
            "end_offset": 22,
            "type": "word",
            "position": 3
        },
        {
            "token": "sanmao",
            "start_offset": 26,
            "end_offset": 32,
            "type": "word",
            "position": 5
        },
        {
            "token": "这是一个三毛介绍",
            "start_offset": 36,
            "end_offset": 44,
            "type": "word",
            "position": 6
        }
    ]
}

keyword

查询文本不拆分，整个文本当作一个词。

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"keyword","text":"This is a Introduction of Sanmao. | 这是一个三毛介绍。"}' http://127.0.0.1:9200/news/_analyze

# -d：请求参数说明
{
    "analyzer": "keyword", # keyword分词器
    "text": "This is a Introduction of Sanmao. | 这是一个三毛介绍。"
}

看对应文本的分词结果：
keyword分词器：不进行任何拆分，全文匹配。

{
    "tokens": [
        {
            "token": "This is a Introduction of Sanmao. | 这是一个三毛介绍。",
            "start_offset": 0,
            "end_offset": 45,
            "type": "word",
            "position": 0
        }
    ]
}

icu分词器

下载&安装

方式一：下载压缩包安装

【analysis-icu分词器下载链接（下载后直接解压复制到es的plugins目录下）】

下载的压缩包版本必须要和当前es版本一致。
除了直接下载已发布的压缩包，还可以到github下载源码自己编译打包，然后放到es的插件目录。

方式二：命令行安装

#window系统执行.bat
$ bin> elasticsearch-plugin.bat install analysis-icu

#linux执行
$ bin>./elasticsearch-plugin install analysis-icu

#查看安装了哪些分词插件
$ bin> elasticsearch-plugin.bat list

确认安装状态

方式一：命令行查询安装了哪些分词器

方式二：安装后重启es，重启后控制台打印加载分词器

安装失败可能会造成es启动失败或者是加载不到分词器。

icu分词器的简单使用

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"icu_analyzer","text":"This is a Introduction of Sanmao | 三毛：她把短暂的一生，活成了十世 By 2024 来源百度知道"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "icu_analyzer",
    "text": "This is a Introduction of Sanmao | 三毛：她把短暂的一生，活成了十世 By 2024 来源百度知道"
}

看对应文本的分词结果：
icu_analyzer分词器：分词从左到右进行，不会去除特殊字母和汉字，也不会重叠使用词组，仅是从左到右进行了短语分割。

{
    "tokens": [
        {
            "token": "this",
            "start_offset": 0,
            "end_offset": 4,
            "type": "",
            "position": 0
        },
        {
            "token": "is",
            "start_offset": 5,
            "end_offset": 7,
            "type": "",
            "position": 1
        },
        {
            "token": "a",
            "start_offset": 8,
            "end_offset": 9,
            "type": "",
            "position": 2
        },
        {
            "token": "introduction",
            "start_offset": 10,
            "end_offset": 22,
            "type": "",
            "position": 3
        },
        {
            "token": "of",
            "start_offset": 23,
            "end_offset": 25,
            "type": "",
            "position": 4
        },
        {
            "token": "sanmao",
            "start_offset": 26,
            "end_offset": 32,
            "type": "",
            "position": 5
        },
        {
            "token": "三毛",
            "start_offset": 35,
            "end_offset": 37,
            "type": "",
            "position": 6
        },
        {
            "token": "她",
            "start_offset": 38,
            "end_offset": 39,
            "type": "",
            "position": 7
        },
        {
            "token": "把",
            "start_offset": 39,
            "end_offset": 40,
            "type": "",
            "position": 8
        },
        {
            "token": "短暂",
            "start_offset": 40,
            "end_offset": 42,
            "type": "",
            "position": 9
        },
        {
            "token": "的",
            "start_offset": 42,
            "end_offset": 43,
            "type": "",
            "position": 10
        },
        {
            "token": "一生",
            "start_offset": 43,
            "end_offset": 45,
            "type": "",
            "position": 11
        },
        {
            "token": "活",
            "start_offset": 46,
            "end_offset": 47,
            "type": "",
            "position": 12
        },
        {
            "token": "成了",
            "start_offset": 47,
            "end_offset": 49,
            "type": "",
            "position": 13
        },
        {
            "token": "十世",
            "start_offset": 49,
            "end_offset": 51,
            "type": "",
            "position": 14
        },
        {
            "token": "by",
            "start_offset": 52,
            "end_offset": 54,
            "type": "",
            "position": 15
        },
        {
            "token": "2024",
            "start_offset": 55,
            "end_offset": 59,
            "type": "",
            "position": 16
        },
        {
            "token": "来源",
            "start_offset": 60,
            "end_offset": 62,
            "type": "",
            "position": 17
        },
        {
            "token": "百度",
            "start_offset": 62,
            "end_offset": 64,
            "type": "",
            "position": 18
        },
        {
            "token": "知道",
            "start_offset": 64,
            "end_offset": 66,
            "type": "",
            "position": 19
        }
    ]
}

IK分词器

ik分词器是一个标准的中文分词器。它可以根据定义的字典对域进行分词，并且支持用户配置自己的字典，所以它除了可以按通用的习惯分词外，还可以定制化分词。

下载&安装

方式一：下载压缩包安装

【analysis-ik分词器下载地址（下载压缩包解压后复制到es的plugins目录下）】

下载的压缩包版本必须要和当前es版本一致。
除了直接下载已发布的压缩包，还可以到github下载源码自己编译打包，然后放到es的插件目录。

方式二：命令行安装

安装方式：
#window系统执行.bat
$ bin> elasticsearch-plugin.bat install analysis-ik
#linux执行
$ bin>./elasticsearch-plugin install analysis-ik

确认安装状态

方式一：命令行查询安装了哪些分词器

方式二：安装后重启es，重启后控制台打印加载分词器

安装失败可能会造成es启动失败或者是加载不到分词器。

ik分词器的简单使用

ik分词器有两种模式：

ik_smart：粗粒度拆分
ik_max_word：细粒度拆分

ik_smart：粗粒度分词模式

postman请求分词器，测试分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"ik_smart","text":"本词条 | 来源百度知道"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "ik_smart", # ik分词器模式
    "text": "本词条 | 来源百度知道"
}

看对应文本的分词结果：
ik_smart分词器：ik分词器，粗粒度分词。粗粒度划分中文词语。

{
    "tokens": [
        {
            "token": "本",
            "start_offset": 0,
            "end_offset": 1,
            "type": "CN_CHAR",
            "position": 0
        },
        {
            "token": "词条",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "来源",
            "start_offset": 6,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "百度",
            "start_offset": 8,
            "end_offset": 10,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "知道",
            "start_offset": 10,
            "end_offset": 12,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}

ik_max_word：细粒度分词模式

postman请求分词器，测试分词结果：

请求命令：对一个相同的内容进行分词

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"ik_max_word","text":"本词条 | 来源百度知道"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "ik_max_word", # ik分词器模式
    "text": "本词条 | 来源百度知道"
}

看对应文本的分词结果：
ik_max_word分词器：ik分词器，细粒度分词。细粒度划分中文词语。对比ik_smart模式，分的词更多了，意味着，在分词查询的时候可能会匹配到更多的结果。

{
    "tokens": [
        {
            "token": "本",
            "start_offset": 0,
            "end_offset": 1,
            "type": "CN_CHAR",
            "position": 0
        },
        {
            "token": "词条",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "来源",
            "start_offset": 6,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "百度",
            "start_offset": 8,
            "end_offset": 10,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "百",
            "start_offset": 8,
            "end_offset": 9,
            "type": "TYPE_CNUM",
            "position": 4
        },
        {
            "token": "度",
            "start_offset": 9,
            "end_offset": 10,
            "type": "COUNT",
            "position": 5
        },
        {
            "token": "知道",
            "start_offset": 10,
            "end_offset": 12,
            "type": "CN_WORD",
            "position": 6
        }
    ]
}

pinyin分词器

拼音分析插件用于做汉字和拼音之间的转换，集成了NLP工具。
如果索引中字段映射了pinyin分词器，那么在通过拼音搜索的时候，输入的拼音会自动和索引中指定pinyin分词类型的字段做匹配。匹配到结果就会被返回。

源码下载、编译、打包

【github下载拼音分词器源码（选择对应es版本的分支）】

        没有直接找到pinyin分词器的压缩包，所以在github上找到pinyin分词器的源码，需要自己下载下来，编译、打包。然后把打包后的.zip文件解压后复制到es的plugins目录下。
        补充！【pinyin分词器发布版（压缩包下载地址）】
        源码拉到本地之后，需要对maven做仓库做下配置，总之，需要mvn能在项目里正常运行。

pinyin分词器编译打包：

mvn clean package

打包成功后在target/releases目录下生成.zip的压缩文件

复制elasticsearch-analysis-pinyin-6.7.0.zip到elasticsearch的插件目录下解压：

解压后删除xxx-pinyin-6.7.0.zip压缩文件，并修改plugin-descriptor.properties的内容：版本号要和当前使用的es版本号一致！

确认安装状态

方式一：命令行查询安装了哪些分词器

方式二：安装后重启es，重启后控制台打印加载分词器

安装失败可能会造成es启动失败或者是加载不到分词器。

pinyin分词器参数

【pinyin分词器参数来源】

pinyin分词器简单使用

拼音分词：输入的拼音进行拆分

postman请求分词器，测试拼音分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"pinyin","text":"sanmao"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "pinyin", # pinyin分词器
    "text": "sanmao"
}

看对应文本的分词结果：
pinyin分词器：pinyin分词器把输入的拼音拆分成了单个拼音、拼音组合、拼音缩写。

{
    "tokens": [
        {
            "token": "san",
            "start_offset": 0,
            "end_offset": 0,
            "type": "word",
            "position": 0
        },
        {
            "token": "sanmao",
            "start_offset": 0,
            "end_offset": 0,
            "type": "word",
            "position": 0
        },
        {
            "token": "mao",
            "start_offset": 0,
            "end_offset": 0,
            "type": "word",
            "position": 1
        }
    ]
}

汉字转拼音分词：输入的汉字拆分为若干个拼音

postman请求分词器，测试汉字转拼音分词结果：

请求命令：

curl -X GET -H 'Content-Type:application/json' -d '{"analyzer":"pinyin","text":"三毛"}' http://127.0.0.1:9200/news/_analyze


# -d：请求参数说明
{
    "analyzer": "pinyin", # pinyin分词器
    "text": "三毛"
}

看对应文本的分词结果：
pinyin分词器：pinyin分词器把输入的汉字拆分成了单个拼音、拼音组合、拼音缩写。

{
    "tokens": [
        {
            "token": "san",
            "start_offset": 0,
            "end_offset": 0,
            "type": "word",
            "position": 0
        },
        {
            "token": "sm",
            "start_offset": 0,
            "end_offset": 0,
            "type": "word",
            "position": 0
        },
        {
            "token": "mao",
            "start_offset": 0,
            "end_offset": 0,
            "type": "word",
            "position": 1
        }
    ]
}

pinyin分词器查询数据（示例）

通过上面的【pinyin分词器简单使用】对拼音/汉字转拼音分词结果有了认知，但是，拼音的分词结果对查询的影响不如icu、ik或者默认分词器这么直观。
下面用一个新索引，示范拼音分词器的使用。

创建指定pinyin分词器的索引：pinyin_news

上面的news索引是没有做任何分词器配置的，现在创建一个新索引pinyin_news并修改默认分词器为拼音分词器。数据结构和数据还是同news一致。

# 创建pinyin_news索引
curl -X PUT -d '见下面' -H 'Content-Type:application/json' http://127.0.0.1:9200/pinyin_news

# -d参数说明
{		
		# 创建索引时的配置 
    "settings": {
        "index": {
            "number_of_shards": "5",
            "number_of_replicas": "1"
        },
        # 分词器的配置
        "analysis": {
            "analyzer": {
                "default": {
                    # 修改默认分词器为pinyin，不做复杂pinyin分词配置，默认pinyin分词器名称就可以。如果需要可以根据github参数说明修改pinyin分词器的默认配置，那这里就不是这样配置了
                    "type": "pinyin"
                }
            }
        }
    },
    # 字段映射关系配置
    "mapping": {
        # 文档类型：高版本应该取消了_doc了。
        "_doc": {
            "properties": {
                "id": {
                    "type": "long"
                },
                # 分词器只能对text类型的字段进行分词，在修改默认分词器的同时还需要修改指定字段的分词类型（指定字段也可以使用其他分词类型）
                # 这里对title字段进行pinyin分词
                "title": {
                    "type": "text",
                    "analyzer": "pinyin"
                },
                "uv": {
                    "type": "long"
                },
                "create_date": {
                    "type": "date"
                },
                "status": {
                    "type": "int"
                },
                "remark": {
                    "type": "text"
                }
            }
        }
    }
}

批量插入一些数据（_bulk），做查询演示

# 测试使用postman发起请求
# 向pinyin_news索引批量新增数据
curl -X POST -d '见下面' -H 'Content-Type:application/json' http://127.0.0.1:9200/pinyin_news/_doc/_bulk


# -d参数说明，每一个对象一个换行(\n)
{"index": {"_id": 1}}
{"id":1,"title":"三毛：她把短暂的一生，活成了十世","uv":120,"create_date":"2024-01-15","status":1,"remark":"来源百度搜索"}
{"index": {"_id": 2}}
{"id":2,"title":"我愿一生流浪 | 三毛《撒哈拉的故事","uv":99,"create_date":"2024-01-14","status":1,"remark":"来源知乎搜索"}
{"index": {"_id": 3}}
{"id":3,"title":"离世33年仍是“华语顶流”，三毛“珍贵录音”揭露人生真相：世界是对的，但我也没错！","uv":80,"create_date":"2024-01-15","status":1,"remark":"来源搜狐"}
{"index": {"_id": 4}}
{"id":4,"title":"三毛逝世30周年丨一场与三毛穿越时空的对话","uv":150,"create_date":"2024-01-16","status":1,"remark":"来源澎湃新闻"}
{"index": {"_id": 5}}
{"id":5,"title":"三毛：从自闭少女到天才作家","uv":141,"create_date":"2024-01-18","status":1,"remark":"来源光明网"}
{"index": {"_id": 6}}
{"id":6,"title":"超全整理！三毛最出名的11本著作，没读过的一定要看看","uv":200,"create_date":"2024-01-23","status":1,"remark":"来源知乎搜索"}
{"index": {"_id": 7}}
{"id":7,"title":"三毛的英文名为什么叫Echo?","uv":300,"create_date":"2024-01-21","status":1,"remark":"来源百度知道"}
{"index": {"_id": 8}}
{"id":8,"title":"毛国家统计局发布第三季度贸易数据","uv":50,"create_date":"2024-01-23","status":1,"remark":"来源中华人民共和国商务部"}
{"index": {"_id": 9}}
{"id":9,"title":"网易公布2022年第三季度财报|净收入|毛利润","uv":131,"create_date":"2024-01-22","status":1,"remark":"来源网易科技"}
{"index": {"_id": 10}}
{"id":10,"title":"单季盈利超100亿元！比亚迪三季度毛利率超特斯拉","uv":310,"create_date":"2024-01-23","status":1,"remark":"来源新浪财经"}
# 批量参数最后要留一空行

插入的内容如图所示：

使用拼音查询

postman发起请求截图：

请求命令：

# 测试使用postman发起请求
# 向pinyin_news索引批量新增数据
curl -X POST -d '见下面' -H 'Content-Type:application/json' http://127.0.0.1:9200/pinyin_news/_search


# -d 参数说明
{
  	# 使用es布尔查询
    "query": {
        "bool": {
            # 查询必须要包含（sanmaochuanyue）三毛穿越
            "must": {
                "match": {
                    "title": "sanmaochuanyue"
                }
            }
        }
    },
    "from": 0, # 起始页码
    "size": 10000, # 每页条数
    "sort": [],
    "aggs": {}
}

查询结果：

{
    "took": 2,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 10,
        "max_score": 2.3288696,
        "hits": [
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "4",
                # 与输入值sanmaochuanyue的匹配度最高
                "_score": 2.3288696,
                "_source": {
                    "id": 4,
                    # title中正好包含三毛穿越，其他匹配三毛的_score依次降低
                    "title": "三毛逝世30周年丨一场与三毛穿越时空的对话",
                    "uv": 150,
                    "create_date": "2024-01-16",
                    "status": 1,
                    "remark": "来源澎湃新闻"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "3",
                "_score": 0.5825863,
                "_source": {
                    "id": 3,
                    "title": "离世33年仍是“华语顶流”，三毛“珍贵录音”揭露人生真相：世界是对的，但我也没错！",
                    "uv": 80,
                    "create_date": "2024-01-15",
                    "status": 1,
                    "remark": "来源搜狐"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "7",
                "_score": 0.3807567,
                "_source": {
                    "id": 7,
                    "title": "三毛的英文名为什么叫Echo?",
                    "uv": 300,
                    "create_date": "2024-01-21",
                    "status": 1,
                    "remark": "来源百度知道"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "1",
                "_score": 0.36986062,
                "_source": {
                    "id": 1,
                    "title": "三毛：她把短暂的一生，活成了十世",
                    "uv": 120,
                    "create_date": "2024-01-15",
                    "status": 1,
                    "remark": "来源百度搜索"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "2",
                "_score": 0.3044239,
                "_source": {
                    "id": 2,
                    "title": "我愿一生流浪 | 三毛《撒哈拉的故事",
                    "uv": 99,
                    "create_date": "2024-01-14",
                    "status": 1,
                    "remark": "来源知乎搜索"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "8",
                "_score": 0.25879097,
                "_source": {
                    "id": 8,
                    "title": "毛国家统计局发布第三季度贸易数据",
                    "uv": 50,
                    "create_date": "2024-01-23",
                    "status": 1,
                    "remark": "来源中华人民共和国商务部"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "6",
                "_score": 0.25162232,
                "_source": {
                    "id": 6,
                    "title": "超全整理！三毛最出名的11本著作，没读过的一定要看看",
                    "uv": 200,
                    "create_date": "2024-01-23",
                    "status": 1,
                    "remark": "来源知乎搜索"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "5",
                "_score": 0.24291237,
                "_source": {
                    "id": 5,
                    "title": "三毛：从自闭少女到天才作家",
                    "uv": 141,
                    "create_date": "2024-01-18",
                    "status": 1,
                    "remark": "来源光明网"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "9",
                "_score": 0.20951384,
                "_source": {
                    "id": 9,
                    "title": "网易公布2022年第三季度财报|净收入|毛利润",
                    "uv": 131,
                    "create_date": "2024-01-22",
                    "status": 1,
                    "remark": "来源网易科技"
                }
            },
            {
                "_index": "pinyin_news",
                "_type": "_doc",
                "_id": "10",
                "_score": 0.1960371,
                "_source": {
                    "id": 10,
                    "title": "单季盈利超100亿元！比亚迪三季度毛利率超特斯拉",
                    "uv": 310,
                    "create_date": "2024-01-23",
                    "status": 1,
                    "remark": "来源新浪财经"
                }
            }
        ]
    }
}

为什么输入pinyin能匹配到结果呢？

分两步走：

第一步： 输入的词通过pinyin分词器分词，分成若干单个拼音、组合拼音、拼音缩写，然后拿着这些结果到es中的title字段查询数据。

第二步：title字段中的值，按照相同的pinyin分词方式，进行分词拆分，分成若干单个拼音、组合拼音、拼音缩写，然后拿着分词结果和输入的分词结果做比对，比对成功即返回hits，但是_score分数高的排名在前，也就是匹配程度越高，返回结果越靠前。

总之，输入的（汉字\拼音）都会被pinyin分词器转成拼音，被查询的title字段也会被pinyin分词器转成拼音，然后再去做数据比对。因为分词规则都是一样的，所以不管是拼音还是汉字都能查询出结果。

总结

安装分词器插件后，在创建索引时没有配置自定义分词器名称时，请求GET {{index_name}}/_analyze需要使用插件中默认的分词器名称。（本文没有涉及到自定义分词器名称的配置）
输入词的分词规则和被查询字段的的分词规则一致。否则查不出结果。
了解了分词器是不是能Get到怎么在百度输入框里面输入内容，查询可能更精准？

补充

查询分词结果还可以不指定索引直接请求：

GET {{domain}}/_analyze

参数：
{
    "analyzer": "pinyin",
    "text": "我愿一生流浪 | 三毛《撒哈拉的故事》"
}

参考链接

Elasticsearch：ICU 分词器介绍 - 掘金
Elasticsearch（ES）分词器的那些事儿
ElasticSearch ik分词器
elasticsearch自定义分词器—拼音分词器_elasticsearch 拼音分词-CSDN博客

你可能感兴趣的:(#,elasticsearch,es6,icu分词器,pinyin分词器,ik分词器,默认分词器,分词器)

Mac命令行查找SDK/JDK安装位置 iblade Linux macos java 开发语言
要在命令行中查询AndroidSDKPlatformTools的安装位置，可以使用以下步骤：使用which命令：在命令行中执行以下命令：whichadb这将输出adb命令的安装路径，通常情况下，它会在AndroidSDK的platform-tools目录下。手动查找：如果whichadb没有输出，可以手动查找AndroidSDK的安装位置。通常情况下，AndroidSDK的默认安装路径是在用户的h
docker怎么端口映射 Lance_mu docker 容器运维
1、默认固定的端口#Web服务器：WebApache或Nginx通常使用80端口HTTP：80HTTPS：443#数据库服务器MySQL：3306PostgreSQL：5432MongoDB：27017Redis：6379#邮件服务器SMTP：25POP3：110IMAP：143#其他服务SSH：22FTP：21DNS（域名解析）：53代理服务器Squid：3128版本控制系统Git：9418(S
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
【译】kube-router-8 操作指南 niufw_qb docker 云原生 k8s 运维
kube-router的健康检查kube-router目前的基本健康检查方式是，每次主循环成功完成后，每个控制器都会向healthcontroller发送心跳。健康端口默认为20244，但可通过启动选项进行更改。健康检查路径为/healthz.--health-port=如果端口设置为0（零），HTTP端点将不可用，但健康控制器仍将运行，并将错过的心跳打印到kube-router的STDERR中。
如果有时间哆哆的小主人
文／哆哆的小主人自述类型。听歌有感。《漠河舞厅》“如果有时间，你会来看一看我吧。”日历上勾勾画画太多痕迹，早已看不清本来面貌，也就数不清，距离他离开，究竟已经过了多少天。也许已经过了上千天了吧，但脑海里关于分别那天的场景却尤为清晰，没有爆发激烈的争执，也没有因为什么而导致关系破裂，只是好像两个人都突然在心里默认了，到了该分开的时候。那天的所有好像都一如往常，甚至看起来比往常还要甜蜜。并肩散步走到了
Element-UI中el-time-picker时间选择器无法选择爱健身的小刘同学 bug Element Vue系列 javascript 前端 elementui
前言前几天开发时，在做一个时间选择时，遇到了无法选中时间的问题在网络上找了解决方法，特此记录一下解决方法我的代码结构营业时间时间选择不上的原因是因为初始值问题很有可能是最开始赋值为空数组了所以有3个解决方法1.设置为nullbusinessTimeInfo:null2.设置当前时间businessTimeInfo:[newDate(newDate()),newDate(newDate())]（默认
Java中HashMap底层数据结构及主要参数? 山间漫步人生路 java 数据结构开发语言
在Java中，HashMap的底层数据结构主要基于数组和链表，同时在Java8及以后的版本中，当链表长度超过一定阈值时，链表会转换为红黑树来优化性能。这种结构结合了数组和链表的优点，既提供了快速的随机访问，又允许动态地扩展存储桶的大小。HashMap的主要参数包括：初始容量（InitialCapacity）：这是HashMap在创建时设定的桶数组的大小。默认值为16。这个值可以根据预计存储的键值对
设置mysql 数据库和表的编码方式UTF-8 盖盖衍上中间件数据库 mysql oracle
要设置MySQL数据库表和字段的编码方式为UTF-8，可以使用下面的SQL语句：1.设置数据库默认编码为UTF-8：ALTERDATABASEyour_database_nameCHARACTERSETutf8mb4COLLATEutf8mb4_unicode_ci;2.创建表时指定编码为UTF-8：CREATETABLEyour_table_name(column1VARCHAR(100)CHA
Linux通过Tuned实现动态调优系统性能星河_赵梓宇 linux 运维服务器
Linux通过Tuned实现动态调优系统性能Tuned简介对于普通用户来说，优化Linux应用环境可能是相当具有挑战性的。它涵盖了各种领域，并且有许多参数需要考虑，比如CPU、存储、缓存策略和内存管理。尽管Linux有默认设置可以处理大多数情况和场景，但是对于高性能、高并发和高可用性系统等特殊场景，需要进行调整。本文讨论的特性是tuned，它是Linux系统中常用的一种调优服务。tuned由两个程
SAP Spartacus的Component映射 JerryWang_汪子熙
Spartacus默认的购物车界面：https://github.com/SAP/spartacus-bootcamp/blob/master/sparta0/src/app/components/cart.component.ts新建一个CartComponent，对Spartacus标准的CartDetailsComponent进行扩展：import{Component}from'@angul
2019最走红的一段话：阿甘1972
家人爱你，卧床三年试试？朋友再多，借5万试试？不保健，换个器官试试？有社保，住个ICU试试？不要去试，一试全剧终！奋斗的理由：年轻时不拖累生你的人；年老时不拖累你生的人；这将是2019年最走红的一段话！
webpack-loader详解奶昔不会射手 webpack 前端 node.js
一、loader的分类1.pre:前置loader2.normal:普通loader3.inline:内联loader4.post:后置loader二、执行顺序pre>normal>inline>post,相同类型的loader执行顺序为：从右到左，从下到上module:{rules:[{enforce:"pre",//通过这个参数来定义loader的类型，默认是normal类型test:/\.j
C++ 如何去认识模板 SuhyOvO C++c++开发语言
引言:C++模板是泛型编程的基石,允许程序员定义可与任何数据类型协作的函数和类。这种机制极大地增加了代码的灵活性和复用性,是C++最强大的特性之一。本文将深入探讨C++模板的概念、优势以及使用方法,帮助读者掌握这一重要的编程工具。文章目录模板简介模板的优势一、模板基础1.1模板的概念1.2函数模板1.3类模板二、模板进阶2.1模板的实例化2.2模板的特化2.3模板的默认参数2.4模板的嵌套三、模板
部署es集群 liushaojiax elasticsearch java 大数据
我们会在单机上利用docker容器运行多个es实例来模拟es集群。不过生产环境推荐大家每一台服务节点仅部署一个es的实例。部署es集群可以直接使用docker-compose来完成，但这要求你的Linux虚拟机至少有4G的内存空间创建es集群首先编写一个docker-compose文件，内容如下：version:'2.2'services:es01:image:elasticsearch:7.12
Elasticsearch8 - Docker安装Elasticsearch8.12.2 王谷雨_ ElasticSearch elasticsearch docker
前言最近在学习ES，所以需要在服务器上装一个单节点的ES服务器环境：centos7.9安装下载镜像目前最新版本是8.12.2dockerpulldocker.elastic.co/elasticsearch/elasticsearch:8.12.2创建配置新增配置文件elasticsearch.ymlhttp.host:0.0.0.0http.cors.enabled:truehttp.cors.
JavaScript快速入门笔记之二（变量、常量、数据类型） eshineLau 前端开发 javascript 笔记前端
JavaScript快速入门笔记之二（变量、常量、数据类型）1、变量何时使用变量：程序中的一切数据都要保存在变量中，反复使用如何使用变量：2种情况：赋值和取值赋值：2步：1.1创建变量：——声明——创建一个新的空变量语法：var变量名;强调：仅声明，未赋值的变量，默认值是undefined命名：1.不能以数字开头2.不能用保留字。3.一般采用驼峰命名1.2赋值：将数据保存到变量中语法：变量名=数据
vue生命周期涡看你就不是好人呐 vue.js javascript 前端
1.computed是在HTMLDOM加载后马上执行的，如赋值；2.methods则必须要有一定的触发条件才能执行，如点击事件；3.watch呢？它用于观察Vue实例上的数据变动。对应一个对象，键是观察表达式，值是对应回调。值也可以是方法名，或者是对象，包含选项。所以他们的执行顺序为：默认加载的时候先computed再watch，不执行methods；等触发某一事件后，则是：先methods再wa
ubuntu生成设置 core文件 sun007700 ubuntu linux 运维
ubuntu生成&设置core文件，调试段错误_ubuntu生成core文件-CSDN博客ubuntu设置core文件_ubuntucore文件默认位置-CSDN博客ulimit-asudovim/etc/profile#或者vi~/.bashrculimit-cunlimited#添加，退出source/etc/profilesudosystemctldisableapport.servicev
Win环境下安装 torch==1.1.0 JOYCE_Leo16 Bug记录深度学习 python 人工智能 pytorch
问题描述复现很多模型的时候，会遇到torch版本不一致问题，尤其是torch1.1.0一直都在安装错误，试了很多方法都没用。解决方案在默认环境中安装torch：pipinstallhttps://download.pytorch.org/whl/cu90/torch-1.1.0-cp36-cp36m-win_amd64.whlpipinstallhttps://download.pytorch.o
C#使用ASP.NET Core Razor Pages构建网站（二）林祖师 C#c#asp.net 开发语言
上一篇文章讲了HTTP协议的基本概念、客户端Web开发技术以及ASP.NETCore框架的关键特点和创建项目方法链接：C#使用ASP.NETCoreRazorPages构建网站（一）接下来继续了解ASP.NETCoreRazorPages构建网站的后续内容了解RazorPagesRazorPages允许开发人员轻松地将HTML标记和C#代码混合在一起，这是使用.cshtml扩展名的原因。默认情况下
python利用xlrd库处理Excel zxj19880502 python excel pip
工作中经常需要处理Excel,所以自己稍微写了一个函数,方便以后自己使用.大家也可以借鉴下.excel_file_name:这里写Excel的路径,和python同一个目录下的话直接写文件名字即可sheet_name:写要处理的sheet的名字,默认Sheet1start_row:开始的行end_row:结束的行(默认所有行)start_col:开始的列end_col:结束的列(默认所有列)返回一
Java中文乱码浅析及解决方案儿时可乖了 java
在Java编程中，中文乱码是一种常见的问题，往往会导致程序在处理字符串时出现意料之外的结果。这通常是因为在不同编码之间转换或不正确处理编码时发生的。本文将剖析Java中文乱码的原因，并提出一些实用的解决方案。文章目录前言一、什么是乱码二、常见乱码场景三、解决方案1.统一编码标准2.数据库编码设置3.文件读写指定编码4.网络传输编码处理5.系统默认编码问题总结前言一、什么是乱码所谓“乱码”，就是指字
elasticsearch同步mysql数据库神器之go-mysql-elasticsearch 强哥的博客数据库
go-mysql-elasticsearch是国内作者开发的一款插件。测试表明：该插件优点：能实现同步增、删、改、查操作。不足之处（待完善的地方）：1、日志不是很详细，但是能满足基本需求；2、初始化时，无法自动同步mysql中存在的以前的数据，需要自行解决初始导入（如重建索引批量导入）go-mysql-elasticsearch安装步骤1：安装goyuminstallgo步骤2：安装godepgo
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
spring security 权限(注解) LaoCat__ java springcloud web后端 java spring boot spring security
写在前边整理的知识点都是从其他博客中来，如有侵权，立删！参考:https://blog.csdn.net/qq_32867467/article/details/103097190正题:SpringSecurity默认是禁用注解的，要想开启注解，要在继承WebSecurityConfigurerAdapter的类加@EnableMethodSecurity注解，并在该类中将Authenticati
我的RUST学习——【第九章 9-1】panic! 与不可恢复的错误 swallowblank rust rust
突然有一天，代码出问题了，而你对此束手无策。对于这种情况，Rust有panic!宏。当执行这个宏时，程序会打印出一个错误信息，展开并清理栈数据，然后接着退出。出现这种情况的场景通常是检测到一些类型的bug，而且程序员并不清楚该如何处理它。发生panic时的展开或终止当出现panic时，程序默认会开始展开（unwinding），这意味着Rust会回溯栈并清理它遇到的每一个函数的数据，不过这个回溯并清
python AcTarjan python python 开发语言
运算运算符#逻辑运算符：and、or、nota=105//10#向下取整为10b=10**3#10的3次方c=math.power(100,0.5)#100的0.5次方d=int(c)#转为整数，去掉小数部分输入和输出a=input("inputastring:")#默认是字符串a=int(input("inputainterger:"))a=float(input("inputafloat:")
npm 包管理工具：常用命令详解与使用指南 LXHYouth node.js npm node.js
npm常用命令的更详细解释和使用场景：npminit详细说明：此命令用于初始化一个新的Node.js项目。它会创建一个package.json文件，其中包含项目的基本信息，如名称、版本、描述、入口点（mainfile）、测试命令、git仓库地址等。这个文件是项目的心脏，记录了项目的元数据和依赖关系。使用示例：在命令行中输入npminit，然后根据提示填写项目信息。如果你想要快速生成一个默认的pac
React—— props校验（非typescript校验类型）水煮庄周鱼鱼 React react.js typescript javascript
非typescript环境下，当我们在封装组件的时候，接受props时传入的内容，需要做类型检测，那我们可以用props校验进行类型的检查。props校验允许在创建组件的时候，就约定props的格式、类型等实现步骤：导入prop-types包使用组件名.propTypes={}来给组件的props添加校验规则校验规则通过PropTypes对象来指定如果props想设置默认值，可以通过default
Skywalking timshinlee skywalking
Skywalking官方文档SkywalkingJavaAgent文档启动Skywalking会同时启动一个控制台和一个监控进程。控制台默认为8080端口，可以在webapp/webapp.yml文件里面修改。监控进程默认监听11800端口，对应的值是config/application.yml的gRPCPort。Skywalking是非侵入式的，我们的Java应用程序要接入Skywalking的
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla