为solr添加ansj分词器

从https://github.com/lgnlgn/ansj4solr下载ansj4solr源码包
在asnj4solr-master目录下执行mvn compile编译源码,执行mvn package 生成target/ansj4solr-1.0.0-SNAPSHOT.jar
在schema.xml中配置tokenizerfactory

<fieldType name="text_cn" class="solr.TextField"
   positionIncrementGap="100">
   <analyzer type="index">
       <tokenizer class="org.ansj.solr.AnsjTokenizerFactory" conf="ansj.conf" />
   </analyzer>
   <analyzer type="query">
       <tokenizer class="org.ansj.solr.AnsjTokenizerFactory"
           analysisType="1" />
   </analyzer>
</fieldType>

在schema.xml所在目录中(一般为conf/)新建ansj.conf文件,内容如下:
lastupdate=123
files=dic/extDic.txt,dic/aaa.txt
其中lastupdate 是一个数字,只要这次比上一次大就会触发更新操作(solr调用分词器时会重新加载字典),可以用时间戳。 files是用户词库文件,以英文逗号隔开。

在schema.xml所在目录中(一般为conf/)新建dic目录存放字典文件。

你可能感兴趣的:(Solr,ansj分词器)