无标题文章

Ik分词器

有的时候,用户搜索的关键字,可能是一句话,不是很规范。所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词。 

  目前有很多优秀的中文分词组件。本篇只以  IKAnalyzer 分词为例,讲解如何在 solr  中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易。具体就不多介绍,这里直接solr 集成 IK 的方法.

分词的测试使用curl或者postman都可以,我个人倾向于postman,主要是能保存,要方便一些

ik分词器:

分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如, 在实我们际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加规则。再一个简单的例子,如果你的优化方法就是对不同的词分权重,提高一些重点词的权重的话,你就需要依赖并理解分词器。本文将根据ik分配器的原码对其实现做一定分析。其中的重点,

主要3点:1、词典树的构建,即将现在的词典加载到一个内存结构中去,

2、词的匹配查找,也就相当生成对一个句话中词的切分方式,

3、歧义判断,即对不同切分方式的判定,哪种应是更合理的

今天主要学的就是和elasticsearch相关的知识,学习啦如何连接elasticsearch的网页elasticsearch-head-master,这样可以让我们可以更加方便的操作elasticsearch和更加直观的看到操作elasticsearch的变化,还有就是学习啦如何使用java对elasticsearch进行操作,然后就是吧elasticsearch和我们自己用的数据库连接啦,这样可以方便我们查看数据和调用数据。

作者:少年_2ddb

链接:https://www.jianshu.com/p/e910d9df8dcb

来源:

著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

你可能感兴趣的:(无标题文章)