lokepaqi

lucene 3.3 简单例子

要看lucene的一些基本概念，看： http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/

这里主要写一个lucene3.3的简单例子：
首先，当然是helloworld程序：

package com.lucene.demo;

import java.io.File;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

import com.lucene.model.SerachResult;
import com.lucene.utils.FileToDocument;
import com.lucene.utils.SerachUtil;

public class HelloWorld {
    
	File indexPath=new File("F:\\java\\Workspaces\\Lucene\\luceneIndex");//存放索引文件目录
	Analyzer analyzer=new SmartChineseAnalyzer(Version.LUCENE_33);
	IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_33, analyzer);
    Document doc=FileToDocument.file2Document(new File("F:\\java\\Workspaces\\Lucene\\datasooruce\\IndexWriter.txt"));
    Document doc1=FileToDocument.file2Document(new File("F:\\java\\Workspaces\\Lucene\\datasooruce\\china.txt"));
    Document doc2=FileToDocument.file2Document(new File("F:\\java\\Workspaces\\Lucene\\datasooruce\\开玩笑.txt"));
	/**
	 * 创建索引
	 */
	@Test
	public void createIndex() throws Exception{
		  conf.setOpenMode(IndexWriterConfig.OpenMode.CREATE);//总是重新创建   
		  Directory fsDir =FSDirectory.open(indexPath);
		  long startTime =System.currentTimeMillis();
		  IndexWriter indexWriter =new IndexWriter(fsDir, conf);
      	  indexWriter.addDocument(doc);
          indexWriter.addDocument(doc1);
          indexWriter.addDocument(doc2);
          indexWriter.optimize();
		  indexWriter.close();
		  long endTime=System.currentTimeMillis();
		  System.out.println("共有"+indexWriter.numDocs()+"条索引");
		  System.out.println("建立索引用时: " + (endTime-startTime)+"毫秒");
	}

	/**
	 * 搜索
	 */
	@Test
	public void serach() throws Exception {
        //1 把要搜素的文本解析为QUery
		String queryString ="开玩笑";
        String [] fields = {"name","content"};
        QueryParser queryParser =new MultiFieldQueryParser(Version.LUCENE_33, fields, analyzer);
        Query query =queryParser.parse(queryString);
        
        
		Directory fsDir =FSDirectory.open(indexPath);

         IndexSearcher indexSearcher= new IndexSearcher(fsDir);
         SerachResult serachResult=SerachUtil.serach(1, 3, query,analyzer,indexSearcher,null);
         System.out.println("总共有[ "+serachResult.getTotalCount()+" ]条匹配结果");
         //3 打印结果
         for (Document doc : (List<Document>)serachResult.getRecords()) {
        	 System.out.println();
        	 FileToDocument.printDocumentInfo(doc);
         }
         indexSearcher.close();
	}
}

其中用到了2个util类：

package com.lucene.utils;

import java.util.ArrayList;
import java.util.List;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileFilter;
import java.io.FileInputStream;
import java.io.InputStreamReader;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.util.NumericUtils;

public class FileToDocument {
     /**
      * 将文件转换成document
      * @param file
      * @return
      */
     public static Document file2Document(File file) {
    	 Document doc= new Document();
    	 doc.add(new Field("name",file.getName(),Store.YES,Index.ANALYZED));
    	 doc.add(new Field("content",readFile(file),Store.YES,Index.ANALYZED));
    	 doc.add(new Field("size",NumericUtils.longToPrefixCoded(file.length()),Store.YES,Index.NOT_ANALYZED));
    	 doc.add(new Field("path",file.getAbsolutePath(),Store.YES,Index.ANALYZED));
    	 return doc;
     }

    /**
     * 读取文件内容
     * @param file
     * @return
     */
	private static String readFile(File file) {
		 StringBuffer content =new StringBuffer();
		try {
			BufferedReader reader =new BufferedReader(new InputStreamReader(new FileInputStream(file)));
		    for(String line =null;(line=reader.readLine())!=null;) {
		    	content.append(line).append("\n");
		    }
		} catch (Exception e) {
			e.printStackTrace();
		}
		return content.toString();
	}
	
	
	/**
	 * 打印document
	 * 获取name熟悉的值的两种方法
	 * 1 FIeld f=doc.getField("name");
	 *   f.StringValue();
	 * 2 doc.get("name");
	 * @param doc
	 */
	public static void printDocumentInfo(Document doc) {
		  
           System.out.println("name = "+doc.get("name"));
           System.out.println("content = "+doc.get("content"));
           System.out.println("size = "+NumericUtils.prefixCodedToLong(doc.get("size")));
           System.out.println("path = "+doc.get("path"));
           System.out.println("comment = "+doc.get("comment"));
	}
	
	/**
	 * 得到该目录下得所有文件（非目录，可读，非一次，存在）
	 * @param sourceDir
	 * @return
	 */
	public List<File> index(File sourceDir) {  
        File[] files=sourceDir.listFiles();  
        List<File> fileList= new ArrayList<File>();
        for (int i = 0; i < files.length; i++) {  
            File f=files[i];  
            if(!f.isDirectory() && f.canRead() && !f.isHidden() && f.exists()){  
              fileList.add(f);
            }  
        }  
        return fileList;
    }  
	
	
	/**
	 * 只接受txt文件的拦截器
	 * @author Administrator
	 *
	 */
    private static class MyFileFilter implements FileFilter{  
  
        @Override  
        public  boolean accept(File pathname) {  
            return pathname.getName().toLowerCase().endsWith(".txt");  
        }  
          
    }  
}


package com.lucene.utils;

import java.util.ArrayList;
import java.util.List;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Filter;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Formatter;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.Scorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.util.Version;

import com.lucene.model.SerachResult;

/**
 *
 * @author: agoni
 * @date： Aug 13, 2011
 * @function:
 *
 */
public class SerachUtil {

	public static SerachResult serach(int pageNo,int pageSize ,Query query,Analyzer analyzer,IndexSearcher indexSearcher,Filter filter) throws Exception {
		 
		SerachResult serachResult = new SerachResult();
		
		
		long startTime =System.currentTimeMillis();



         //2 进行查询,并进行过滤
         TopDocs topDocs=indexSearcher.search(query, filter, 10000);
         //准备高亮器
         Formatter formatter = new SimpleHTMLFormatter("<font color='red'>","</font>");
         Scorer scorer = new QueryScorer(query);
         Highlighter highlighter = new Highlighter(formatter, scorer);
         Fragmenter fragmenter = new SimpleFragmenter(100);//摘要信息的长度
         highlighter.setTextFragmenter(fragmenter);
         
         
   
       //分页读取数据
         List<Document> recordList =new ArrayList<Document>();
         int end=Math.min(pageNo*pageSize,topDocs.totalHits);
         for(int i=(pageNo-1)*pageSize;i<end;i++) {
        	 ScoreDoc scoreDoc = topDocs.scoreDocs[i];//读取第几条记录
        	 int docSn=scoreDoc.doc;                  //文档内部编号  
        	 Document document=indexSearcher.doc(docSn);
        	 
        	 //高亮
        	 //当正文中没有出现关键字， 返回null
        	 String hc=highlighter.getBestFragment(analyzer, "content",document.get("content"));
        	 if(hc==null) {
                  String content =document.get("content");
                  int endIndex=Math.min(100, content.length());
                  hc=content.substring(0,endIndex);
        	 }
        	 Field contentField=(Field) document.getFieldable("content");   
             contentField.setValue(hc);  
        	 document.add(new Field("comment",hc,Store.YES,Index.ANALYZED));//将搜索的提示信息放入文档中
        	 
        	recordList.add(document);
         }
         serachResult.setPageNo(pageNo);
         serachResult.setPageSize(pageSize);
         serachResult.setTotalCount(topDocs.totalHits);
         serachResult.setRecords(recordList);
         long endTime=System.currentTimeMillis();
         serachResult.setTime(endTime-startTime);

         return serachResult;
	}
	
	
}

对搜索结果封装的类：


package com.lucene.model;

import java.util.List;

import org.apache.lucene.document.Document;

/**
 *
 * @author: agoni
 * @date： Aug 13, 2011
 * @function:
 *
 */
public class SerachResult {
      private int totalCount;         //搜索的总记录数
      private List<Document> records; //返回当前页的结果
      private long Time;              //搜索用时
      private int pageNo;             //当前页
      private int pageSize;           //每页数量
     
	public SerachResult() {
	}
	
	/**
	 * @param totalCount
	 * @param recordList
	 * @param time
	 */
	public SerachResult(int totalCount, List<Document> recordList, long time) {
		super();
		this.totalCount = totalCount;
		this.setRecords(recordList);
		Time = time;
	}
	public int getTotalCount() {
		return totalCount;
	}
	public void setTotalCount(int totalCount) {
		this.totalCount = totalCount;
	}
	
	public long getTime() {
		return Time;
	}
	public void setTime(long time) {
		Time = time;
	}
	public int getPageNo() {
		return pageNo;
	}
	public void setPageNo(int pageNo) {
		this.pageNo = pageNo;
	}
	public int getPageSize() {
		return pageSize;
	}
	public void setPageSize(int pageSize) {
		this.pageSize = pageSize;
	}

	public void setRecords(List<Document> records) {
		this.records = records;
	}

	public List<Document> getRecords() {
		return records;
	}
	
}

helloworld程序到此结束。

下面是测试中文分词器和英文分词器的简单例子:

package com.lucene.demo;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.en.EnglishAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.apache.lucene.util.Version;
import org.junit.Test;

/**
 *
 * @author: agoni
 * @date： Aug 14, 2011
 * @function:
 *
 */
public class TestAnalyze {
     private String  enText= "IndexWriter addDocument's a javadoc.txt menu_down up-down";
     private String chText="衣服  矿泉水和分词器-看不起一个人的审美";
     Analyzer enAnalyzer = new EnglishAnalyzer(Version.LUCENE_33);
     Analyzer chAnalyzer = new SmartChineseAnalyzer(Version.LUCENE_33);
      
     
     @Test
     public void testAnalyze() throws IOException {
    	 analyze(enAnalyzer, enText);
    	 System.out.println("---------------------------------------------------------------------------------------------------");
    	 analyze(enAnalyzer, chText);
    	 System.out.println("---------------------------------------------------------------------------------------------------");
    	 analyze(chAnalyzer, enText);
    	 System.out.println("---------------------------------------------------------------------------------------------------");
    	 analyze(chAnalyzer, chText);
     }
     /**
      * 
      * @param analyzer
      * @param text
     * @throws IOException 
      */
     public void analyze(Analyzer analyzer ,String text) throws IOException {
    	 System.out.println("-----------分词器："+analyzer.getClass().getName()+"------------");
         System.out.println("输入："+text);
         TokenStream tokenStream = analyzer.tokenStream("content",new StringReader(text));
         displayTokenStream(tokenStream);
     }
     
     private static void displayTokenStream(TokenStream ts) throws IOException
     {
       CharTermAttribute termAtt = (CharTermAttribute)ts.getAttribute(CharTermAttribute.class);
       TypeAttribute typeAtt = (TypeAttribute)ts.getAttribute(TypeAttribute.class);
       
       while (ts.incrementToken())
       {
           System.out.println("type="+typeAtt.type()+ "     "+termAtt);
       }
       System.out.println(' ');
     }
}

下面是测试几种常用query的例子：


package com.lucene.demo;


import java.io.File;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermRangeQuery;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.NumericUtils;
import org.apache.lucene.util.Version;
import org.junit.Test;
import org.apache.lucene.search.FuzzyLikeThisQuery;
import com.lucene.model.SerachResult;
import com.lucene.utils.FileToDocument;
import com.lucene.utils.SerachUtil;

/**
 *
 * @author: agoni
 * @date： Aug 14, 2011
 * @function:
 *
 */
public class TestQuery {
	File indexPath=new File("F:\\java\\Workspaces\\Lucene\\luceneIndex");//存放索引文件目录
	Analyzer analyzer=new SmartChineseAnalyzer(Version.LUCENE_33);
	IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_33, analyzer);
    Document doc=FileToDocument.file2Document(new File("F:\\java\\Workspaces\\Lucene\\datasooruce\\IndexWriter.txt"));
    Document doc1=FileToDocument.file2Document(new File("F:\\java\\Workspaces\\Lucene\\datasooruce\\china.txt"));
    Document doc2=FileToDocument.file2Document(new File("F:\\java\\Workspaces\\Lucene\\datasooruce\\开玩笑.txt"));
    
    /**
	 * 搜索
	 */
	public void serach(Query query) {
		 Directory fsDir;
		 try {
			fsDir = FSDirectory.open(indexPath);
			IndexSearcher indexSearcher= new IndexSearcher(fsDir);
	         SerachResult serachResult=SerachUtil.serach(1, 10, query,analyzer,indexSearcher,null);
	         System.out.println("总共有[ "+serachResult.getTotalCount()+" ]条匹配结果");
	         //3 打印结果
	         for (Document doc : (List<Document>)serachResult.getRecords()) {
	        	 System.out.println("--------------------------------------------------------------------------------------------------------------------------------------");
	        	 FileToDocument.printDocumentInfo(doc);//打印文档
	         }
	         indexSearcher.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
         
	}
    
    
	/**
     * 关键字查询
     */
	@Test
	public void testTermQuery() {
         //Term term = new Term("name","开玩笑");
		Term term = new Term("content","缓存");
		Query query = new TermQuery(term);
		serach(query);
	}
	
	/**
	 * 范围查询 
	 * 参数3.4 是否包含上下边界
	 */
	@Test
	public void testTermRangeQuery() {
		
		TermRangeQuery query =new TermRangeQuery("size",NumericUtils.longToPrefixCoded(100),NumericUtils.longToPrefixCoded(1000)
				          , true, true);
		serach(query);//查询文件大小为100到1000之间的数据
	}


	/**
	 * 模糊查询
	 * ？表示一位 * 表示多位
	 */
    @Test
    public void testWildcardQuery() {
    	//Term term = new Term("name","index*"); //Index* 将查询不到任何结果，因为建立索引已将所有大写转为小写
    	//Term term = new Term("name","?ndex*");
    	//Term term = new Term("name","*dex*");
    	Term term = new Term("name","*玩?");
    	Query query = new WildcardQuery(term);
    	serach(query);
    }
    
    

    
    /**
     * 短语查询
     */
    @Test
    public void testPhraseQuery() {
    	PhraseQuery  phraseQuery = new PhraseQuery();
    	//phraseQuery.add(new Term("content","优化"),1);
    	//phraseQuery.add(new Term("content","缓存"),3);
    	
    	phraseQuery.add(new Term("content","优化"));
    	phraseQuery.add(new Term("content","缓存"));
    	phraseQuery.setSlop(10);//表示分词之后 两个词的相隔的次数上限
    	
    	serach(phraseQuery);
    }
    


     /**
      *  最常使用的就是booleanquery了，可以将各种条件组合一起形成复杂查询
      **/
    @Test 
    public void testBooleanQuery() {
    	//条件一
    	PhraseQuery phraseQuery = new PhraseQuery();
    	phraseQuery.add(new Term("content","小弟"));
    	phraseQuery.add(new Term("content","分词"));
    	phraseQuery.setSlop(100);//两词组间隔最大距离
    	
    	//条件二
    	TermRangeQuery query =new TermRangeQuery("size",NumericUtils.longToPrefixCoded(100),NumericUtils.longToPrefixCoded(500)
		          , true, true);
    	
    	BooleanQuery  booleanQuery = new BooleanQuery();
    	booleanQuery.add(phraseQuery, Occur.MUST);
    	booleanQuery.add(query,Occur.MUST);
    	
    	
    	serach(booleanQuery);
    }

}

IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
使用Python操作ElasticSearch 完美代码 elasticsearch 搜索引擎 python Python
使用Python操作ElasticSearchElasticsearch是一个基于Lucene的搜索引擎，它提供了一个可扩展的多用户全文搜索引擎。使用Python操作ElasticSearch可以非常方便地进行索引和搜索。创建索引在操作ElasticSearch之前，首先需要创建一个索引。下面是一个简单的Python代码示例，用于创建一个名为“my_index”的索引，并定义了一个类型“my_ty
【Lucene】lucene的searcher.search查询机制 risc123456 lucene
lucene查询的时候也是先评分排序，最后才获取文档甚至获取文档都不是必须的？是的，你的理解完全正确。1.Lucene查询流程=先评分&排序，后可选地取回文档-IndexSearcher.search(...)在内部先创建`Weight`、`Scorer`，再交给Collector遍历倒排表。-Collector（如TopScoreDocCollector）一边遍历一边实时计算score并维护一个
【Lucene】leafreadercontext逻辑段与segment物理磁盘段的关系 risc123456 Elasticsearch lucene
在Lucene中，“叶子段”（LeafReaderContext）和“segment”（物理段）在Lucene语境下，LeafReaderContext≈segment的运行时只读视图。概念所在层次含义是否一一对应segment物理存储层Lucene索引在磁盘上被拆分为多个段（每个段一个`_X`命名的文件集）。每个segment是一个完整的倒排索引子集，包含倒排表、存储字段、DocValue等。✅
TwoPhaseIterator 两阶段验证 risc123456 lucene
下面给出可直接拷贝运行的Lucene8.5.0示例，演示TwoPhaseIterator两阶段验证的完整流程。场景：使用`PhraseQuery`（短语查询），它天然携带`TwoPhaseIterator`，第一阶段通过倒排表拿到“候选文档”，第二阶段验证词间距与顺序。---1.依赖（Maven）```xmlorg.apache.lucenelucene-core8.5.0org.apache.l
lucene 9.10向量检索基本用法成长的小牛233 lucene 全文检索
Lucene9.10中的KnnFloatVectorQuery是用来执行最近邻（k-NearestNeighbors，kNN）搜索的查询类，它可以在一个字段中搜索与目标向量最相似的k个向量。以下是KnnFloatVectorQuery的基本用法和代码示例。1.索引向量字段首先，你需要一个包含向量字段的索引。你可以使用KnnFloatVectorField来添加向量到文档中。importorg.ap
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
深度解析Lucene IndexWriter 性能优化微笑听雨。 java 进阶教程 lucene indexWriter 全文检索性能调优内存缓冲
深度解析LuceneIndexWriter性能优化目标：在大规模写入、频繁更新的场景下，既保持吞吐量，又兼顾搜索实时性与系统稳定性。关键调优点内存缓冲：将RAMBufferSizeMB提升至128–1024MB，减少flush次数；必要时配合maxBufferedDocs。合并策略：使用TieredMergePolicy，典型参数为maxMergeAtOnce4–8、segmentsPerTier
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
从源码角度了解Elasticsaerch(分布式协调排序、深分页问题)
引文Elasticsearch基于Lucene所以很多系统实现都在其中,所以可以先看看Lucene的实现:https://blog.csdn.net/qq_35040959/article/details/147931034项目组件不像Kafka这种顶级项目核心性能组件全自己实现,ELK中有很多引用至第三方开放库;网络模型-Netty网络模型多重要不必多说,Elasticsearch基于Netty
ELK在Java的使用 hqxstudying ELK java 日志 elasticsearch
在Java应用里运用ELK（Elasticsearch、Logstash、Kibana）技术栈，能够实现日志的集中化管理、高效搜索以及直观可视化。下面将从基础概念入手，逐步深入讲解其使用方法。一、基础概念ELK技术栈由三款开源工具构成：Elasticsearch：作为分布式搜索引擎，它基于Lucene开发，具备强大的全文检索和数据分析能力。Logstash：属于数据收集引擎，可对多源数据进行收集、
基于lucene的案例开发：实时索引管理类IndexManager
转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/44015983http://www.llwjy.com/blogdetail/5757ce8c007754704b563dd6a47ca1ca.html个人的博客小站也搭建成功，网址：www.llwjy.com，欢迎大家来吐槽~在前一篇博客中，对实时索引的实现原理做了一些简单的介绍
Elasticsearch 海量数据写入与高效文本检索实践指南 weixin_52755040 运维 es
Elasticsearch海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称ES）作为一款基于Lucene的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和分析能力，成为处理海量数据写入与文本检索的热门选择。本文将深入探讨如何在ES中实现海量数据的高效写入，并利用其强大的功能进行精准的文本检索，帮助开发者和技术人
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
ES分片（Shard）和副本（Replica）的作用？如何合理分配？搞不懂语言的程序员 elasticsearch 中间件 elasticsearch 大数据搜索引擎
ES分片和副本一、分片（Shard）的作用数据水平扩展将索引拆分为多个分片（默认5个），实现海量数据分布式存储和并行计算读写负载均衡每个分片作为独立的Lucene索引，支持并发读写操作，提升吞吐量故障隔离能力单个分片故障不会导致整个索引不可用，其他分片仍可继续提供服务二、副本（Replica）的作用数据高可用每个分片的副本（默认1个）存储在不同节点，主分片故障时副本自动升级为主分片读取性能提升副本
规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比苦思冥想行则将至 word分词数据过滤 java过滤数据过滤数据效率 20万关键字处理
目录前言：1、lucene分词工具的使用2、分词word与JDK的stream流式过滤实现测试结果2.1通过包含20万条数据与否，进行效率对比2.2打印执行时间差，来实现效率对比3、一次性触发20万条数据执行进行Mysql记录执行结果，参数，耗时，入参4、数据库截图展示统计结果，JDK的效率更高一些前言：在数据过滤以及处理的过程中，会用到分词工具对于大文本的信息内容进行处理，作为java开发，经常
Springboot基于ElasticSearch全文搜索引擎策略实现 LQzhang_11 JAVA 缓存 Spring 搜索引擎 spring boot elasticsearch
一、ElasticSearch概念简介ElasticSearch是一个基于Lucene的开源搜索引擎，具有分布式、多租户能力的全文搜索引擎。ElasticSearch的设计目标是实现分布式、可扩展和速度快的搜索架构，使得用户在数据量较大的情况下依然能够快速高效地对数据进行搜索和分析。ElasticSearch使用RESTfulAPI进行操作，支持结构化、非结构化数据的索引和搜索，适合用来解决大量数
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
Elasticsearch 方法论 catkin_ws 数据库
人工智能、大数据快速发展的今天，对于TB甚至PB级大数据的快速检索已然成为刚需。Elasticsearch作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。Elasticsearch以其开源、分布式、RESTFulAPI三大优势，已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与Elasticsearch、Lucene内核优化、改进。如果说，你
69道Elasticsearch高频题整理(附答案背诵版) Zeyhra elasticsearch jenkins 大数据
简述什么是Elasticsearch？参考回答Elasticsearch是一个基于分布式架构的开源搜索引擎，使用全文检索引擎ApacheLucene作为底层技术实现。它能够提供强大的搜索、数据存储和分析功能，适用于海量数据的实时搜索和分析场景。Elasticsearch的核心特点全文检索：提供强大的全文检索能力，支持模糊搜索、前缀搜索、短语搜索等多种高级搜索功能。分布式架构：支持水平扩展，数据分布
面试专区|【69道Elasticsearch高频题整理(附答案背诵版)】尺小闹面试 elasticsearch 职场和发展
简述什么是Elasticsearch？Elasticsearch是一个基于Lucene的搜索服务器，它提供了一个分布式、多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。它用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#
ElasticSearch的基本概念：索引类型文档和映射 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍ElasticSearch是一个基于Lucene的分布式搜索引擎，它提供了一个简单易用的RESTfulAPI，可以快速地进行全文搜索、结构化搜索、分析和聚合等操作。在ElasticSearch中，最基本的概念包括索引、类型、文档和映射。本文将详细介绍这些概念的含义和联系，以及它们在ElasticSearch中的具体实现和应用。2.核心概念与联系2.1索引索引是ElasticSearch
ElasticSearch 2.x入门与快速实践爱美有喜技术漫谈 elasticsearch 分布式搜索引擎索引
IntroductionElasticSearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。Elas
ElasticSearch es 插件开发 2501_90252573 elasticsearch 大数据搜索引擎
PythonLanguageSecurityPlugins安全插件扩展es的安全策略，比如控制api的访问权限等优秀插件代表：X-PackSnapshot/RestoreRepositoryPlugins快照/还原存储库插件扩展es的快照和恢复功能StorePlugins存储插件扩展es的存储方式，es默认使用的是Lucene存储数据的优秀插件代表：StoreSMBWindowsSMB2.插件开发
Elasticsearch 快速入门指南 Luck_ff0810 开发工具 Java elasticsearch elasticsearch 大数据搜索引擎
1.Elasticsearch简介Elasticsearch是一个基于Lucene的开源分布式搜索和分析引擎，由Elastic公司开发。它具有以下特点：分布式：可以轻松扩展到数百台服务器，处理PB级数据实时性：数据一旦被索引，立即可被搜索全文检索：强大的全文搜索能力RESTfulAPI：提供简单易用的JSON风格API多功能：不仅是搜索引擎，还是强大的分析引擎2.核心概念在深入Elasticsea
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

lucene 3.3 简单例子

你可能感兴趣的:(Lucene)