规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比

目录

前言:

1、lucene分词工具的使用

2、分词word与JDK的stream流式过滤实现测试结果

2.1 通过包含20万条数据与否,进行效率对比

2.2  打印执行时间差,来实现效率对比

3、一次性触发20万条数据执行进行Mysql记录执行结果,参数,耗时,入参

4、数据库截图展示统计结果,JDK的效率更高一些


 

  • 前言:

在数据过滤以及处理的过程中,会用到分词工具对于大文本的信息内容进行处理,作为java开发,经常使用的分词除了EL的IK就是目前开源的word的分词了,但是对于大文本的分词效率不及EL的IK分词,效率不高,对于小文本的分词,效率又不及jdk自带的逻辑处理。主要是实际场景中过滤数据导致我们要对比分词、JDK、Avicator哪一种逻辑处理最快,最通用。对于测试场景是,面对12万+的数据,进行标题过滤,匹配是否包含这12万数据里面的一条。

通过实际场景的对比发现还是JDK比较靠谱!

结论:Word分词与JDK的stream的流过滤10万条数据的效率比较,明显还是Word分词过滤高一些,就是在第一次的时候会超过10秒以上加载,后面基本上在10毫秒内

下面那就是展示分词与JDK的数据过滤的对比

你可能感兴趣的:(word分词,数据过滤,java过滤数据,过滤数据效率,20万关键字处理)