【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能

package com.jadyer.lucene;



import java.io.File;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.Date;



import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.NumericField;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.index.Term;

import org.apache.lucene.queryParser.ParseException;

import org.apache.lucene.queryParser.QueryParser;

import org.apache.lucene.search.BooleanQuery;

import org.apache.lucene.search.FuzzyQuery;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.NumericRangeQuery;

import org.apache.lucene.search.PhraseQuery;

import org.apache.lucene.search.PrefixQuery;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TermQuery;

import org.apache.lucene.search.TermRangeQuery;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.WildcardQuery;

import org.apache.lucene.search.BooleanClause.Occur;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;



/**

 * 【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能

 * @create Aug 1, 2013 3:54:27 PM

 * @author 玄玉<http://blog.csdn.net/jadyer>

 */

public class HelloSearch {

	private Directory directory;

	private IndexReader reader;

	private String[] ids = {"1", "2", "3", "4", "5", "6"};

	private String[] names = {"Michael", "Scofield", "Tbag", "Jack", "Jade", "Jadyer"};

	private String[] emails = {"[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]", "[email protected]"};

	private String[] contents = {"my java blog is http://blog.csdn.net/jadyer", "my website is http://www.jadyer.cn", "my name is jadyer", "I am JavaDeveloper", "I am from Haerbin", "I like Lucene"};

	private int[] attachs = {9,3,5,4,1,2};

	private Date[] dates = new Date[ids.length];

	

	public HelloSearch(){

		IndexWriter writer = null;

		Document doc = null;

		SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");

		try {

			dates[0] = sdf.parse("20120601");

			dates[1] = sdf.parse("20120603");

			dates[2] = sdf.parse("20120605");

			dates[3] = sdf.parse("20120607");

			dates[4] = sdf.parse("20120609");

			dates[5] = sdf.parse("20120611");

			directory = FSDirectory.open(new File("myExample/03_index/"));

			writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));

			writer.deleteAll();              //创建索引之前,先把文档清空掉

			for(int i=0; i<ids.length; i++){ //遍历ID来创建文档

				doc = new Document();

				doc.add(new Field("id", ids[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));

				doc.add(new Field("name", names[i], Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

				doc.add(new Field("email", emails[i], Field.Store.YES, Field.Index.NOT_ANALYZED));

				doc.add(new Field("email", "test"+i+""+i+"@jadyer.com", Field.Store.YES, Field.Index.NOT_ANALYZED));

				doc.add(new Field("content", contents[i], Field.Store.NO, Field.Index.ANALYZED));

				doc.add(new NumericField("attach", Field.Store.YES, true).setIntValue(attachs[i]));        //为数字加索引(第三个参数指定是否索引)

				doc.add(new NumericField("attach", Field.Store.YES, true).setIntValue((i+1)*100));         //假设有多个附件

				doc.add(new NumericField("date", Field.Store.YES, true).setLongValue(dates[i].getTime())); //为日期加索引

				writer.addDocument(doc);

			}

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			if(null != writer){

				try {

					writer.close();

				} catch (IOException ce) {

					ce.printStackTrace();

				}

			}

		}

	}

	

	

	/**

	 * 针对分页搜索创建索引

	 */

	public HelloSearch(boolean pageFlag){

		String[] myNames = new String[50];

		String[] myContents = new String[50];

		for(int i=0; i<50; i++){

			myNames[i] = "file(" + i + ")";

			myContents[i] = "I love JavaSE, also love Lucene(" + i + ")";

		}

		IndexWriter writer = null;

		Document doc = null;

		try {

			directory = FSDirectory.open(new File("myExample/03_index/"));

			writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new StandardAnalyzer(Version.LUCENE_36)));

			writer.deleteAll();

			for(int i=0; i<myNames.length; i++){

				doc = new Document();

				doc.add(new Field("myname", myNames[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));

				doc.add(new Field("mycontent", myContents[i], Field.Store.YES, Field.Index.ANALYZED));

				writer.addDocument(doc);

			}

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

			if(null != writer){

				try {

					writer.close();

				} catch (IOException ce) {

					ce.printStackTrace();

				}

			}

		}

	}

	

	

	/**

	 * 获取IndexSearcher实例

	 */

	private IndexSearcher getIndexSearcher(){

		try {

			if(reader == null){

				reader = IndexReader.open(directory);

			}else{

				//if the index was changed since the provided reader was opened, open and return a new reader; else,return null

				//如果当前reader在打开期间index发生改变,则打开并返回一个新的IndexReader,否则返回null

				IndexReader ir = IndexReader.openIfChanged(reader);

				if(ir != null){

					reader.close(); //关闭原reader

					reader = ir;    //赋予新reader

				}

			}

			return new IndexSearcher(reader);

		}catch(Exception e) {

			e.printStackTrace();

		}

		return null; //发生异常则返回null

	}

	

	

	/**

	 * 执行搜索操作

	 * @param query 搜索的Query对象

	 */

	private void doSearch(Query query){

		IndexSearcher searcher = this.getIndexSearcher();

		try {

			//第二个参数指定搜索后显示的最多的记录数,其与tds.totalHits没有联系

			TopDocs tds = searcher.search(query, 10);

			System.out.println("本次搜索到[" + tds.totalHits + "]条记录");

			for(ScoreDoc sd : tds.scoreDocs){

				Document doc = searcher.doc(sd.doc);

				System.out.print("文档编号=" + sd.doc + "  文档权值=" + doc.getBoost() + "  文档评分=" + sd.score + "    ");

				System.out.print("id=" + doc.get("id") + "  email=" + doc.get("email") + "  name=" + doc.get("name") + "  ");

				//获取多个同名域的方式

				String[] attachValues = doc.getValues("attach");

				for(String attach : attachValues){

					System.out.print("attach=" + attach + "  ");

				}

				System.out.println();

			}

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

			if(null != searcher){

				try {

					searcher.close(); //记得关闭IndexSearcher

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

		}

	}

	

	

	/**

	 * 精确匹配搜索

	 * @param fieldName 域名(相当于表的字段名)

	 * @param keyWords  搜索的关键字

	 */

	public void searchByTerm(String fieldName, String keyWords){

		Query query = new TermQuery(new Term(fieldName, keyWords));

		this.doSearch(query);

	}

	

	

	/**

	 * 基于范围的搜索

	 * @param fieldName 域名(相当于表的字段名)

	 * @param start     开始字符

	 * @param end       结束字符

	 */

	public void searchByTermRange(String fieldName, String start, String end){

		Query query = new TermRangeQuery(fieldName, start, end, true, true); //后面两个参数用于指定开区间或闭区间

		this.doSearch(query);

	}

	

	

	/**

	 * 针对数字的搜索

	 */

	public void searchByNumericRange(String fieldName, int min, int max){

		Query query = NumericRangeQuery.newIntRange(fieldName, min, max, true, true);

		this.doSearch(query);

	}

	

	

	/**

	 * 基于前缀的搜索

	 * @see 它是对Field分词后的结果进行前缀查找的结果

	 */

	public void searchByPrefix(String fieldName, String prefix){

		Query query = new PrefixQuery(new Term(fieldName, prefix));

		this.doSearch(query);

	}

	

	

	/**

	 * 基于通配符的搜索

	 * @see *-->任意多个字符

	 * @see ?-->一个字符

	 */

	public void searchByWildcard(String fieldName, String wildcard){

		Query query = new WildcardQuery(new Term(fieldName, wildcard));

		this.doSearch(query);

	}

	

	

	/**

	 * 模糊搜索

	 * @see 与通配符搜索不同

	 */

	public void searchByFuzzy(String fieldName, String fuzzy){

		Query query = new FuzzyQuery(new Term(fieldName, fuzzy));

		this.doSearch(query);

	}

	

	

	/**

	 * 多条件搜索

	 * @see 本例中搜索name值中以Ja开头,且content中包含am的内容

	 * @see Occur.MUST------表示此条件必须为true

	 * @see Occur.MUST_NOT--表示此条件必须为false

	 * @see Occur.SHOULD----表示此条件非必须

	 */

	public void searchByBoolean(){

		BooleanQuery query = new BooleanQuery();

		query.add(new WildcardQuery(new Term("name", "Ja*")), Occur.MUST);

		query.add(new TermQuery(new Term("content", "am")), Occur.MUST);

		this.doSearch(query);

	}

	

	

	/**

	 * 短语搜索

	 * @see 很遗憾的是短语查询对中文搜索没有太大的作用,但对英文搜索是很好用的,但它的开销比较大,尽量少用

	 */

	public void searchByPhrase(){

		PhraseQuery query = new PhraseQuery();

		query.setSlop(1);                          //设置跳数

		query.add(new Term("content", "am"));      //第一个Term

		query.add(new Term("content", "Haerbin")); //产生距离之后的第二个Term

		this.doSearch(query);

	}

	

	

	/**

	 * 基于QueryParser的搜索

	 */

	public void searchByQueryParse(){

		QueryParser parser = new QueryParser(Version.LUCENE_36, "content", new StandardAnalyzer(Version.LUCENE_36));

		Query query = null;

		try {

//			query = parser.parse("Haerbin");           //搜索content中包含[Haerbin]的记录

//			query = parser.parse("I AND Haerbin");     //搜索content中包含[I]和[Haerbin]的记录

//			query = parser.parse("Lucene OR Haerbin"); //搜索content中包含[Lucene]或者[Haerbin]的记录

//			query = parser.parse("Lucene Haerbin");    //搜索content中包含[Lucene]或者[Haerbin]的记录

//			parser.setDefaultOperator(Operator.AND);   //将空格的默认操作OR修改为AND

//			//1)如果name域在索引时,不进行分词,那么无论这里写成[name:Jadyer]还是[name:jadyer],最后得到的都是0条记录

//			//2)由于name原值为大写[J],若索引时不对name分词,除非修改name原值为小写[j],并且搜索[name:jadyer]才能得到记录

//			query = parser.parse("name:Jadyer");       //修改搜索域为name=Jadyer的记录

//			query = parser.parse("name:Ja*");          //支持通配符

//			query = parser.parse("\"I am\"");          //搜索content中包含[I am]的记录(注意不能使用parse("content:'I am'"))

//			parser.setAllowLeadingWildcard(true);      //设置允许[*]或[?]出现在查询字符的第一位,即[name:*de],否则[name:*de]会报异常

//			query = parser.parse("name:*de");          //Lucene默认的第一个字符不允许为通配符,因为这样效率比较低

//			//parse("+am +name:Jade")--------------搜索content中包括[am]的,并且name=Jade的记录

//			//parse("am AND NOT name:Jade")--------搜索content中包括[am]的,并且nam不是Jade的记录

//			//parse("(blog OR am) AND name:Jade")--搜索content中包括[blog]或者[am]的,并且name=Jade的记录

//			query = parser.parse("-name:Jack +I");     //搜索content中包括[I]的,并且name不是Jack的记录(加减号要放到域说明的前面)

//			query = parser.parse("id:[1 TO 3]");       //搜索id值从1到3的记录(TO必须大写,且这种方式没有办法匹配数字)

//			query = parser.parse("id:{1 TO 3}");       //搜索id=2的记录

			query = parser.parse("name:Jadk~");        //模糊搜索

		} catch (ParseException e) {

			e.printStackTrace();

		}

		this.doSearch(query);

	}

	

	

	/**

	 * 普通的分页搜索

	 * @see 适用于lucene3.5之前

	 * @param expr      搜索表达式

	 * @param pageIndex 页码

	 * @param pageSize  分页大小

	 */

	public void searchPage(String expr, int pageIndex, int pageSize){

		IndexSearcher searcher = this.getIndexSearcher();

		QueryParser parser = new QueryParser(Version.LUCENE_36, "mycontent", new StandardAnalyzer(Version.LUCENE_36));

		try {

			Query query = parser.parse(expr);

			TopDocs tds = searcher.search(query, pageIndex*pageSize);

			ScoreDoc[] sds = tds.scoreDocs;

			for(int i=(pageIndex-1)*pageSize; i<pageIndex*pageSize; i++){

				Document doc = searcher.doc(sds[i].doc);

				System.out.println("文档编号:" + sds[i].doc + "-->" + doc.get("myname") + "-->" + doc.get("mycontent"));

			}

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			if(null != searcher){

				try {

					searcher.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

		}

	}

	

	

	/**

	 * 基于searchAfter的分页搜索

	 * @see 适用于Lucene3.5

	 * @param expr      搜索表达式

	 * @param pageIndex 页码

	 * @param pageSize  分页大小

	 */

	public void searchPageByAfter(String expr, int pageIndex, int pageSize){

		IndexSearcher searcher = this.getIndexSearcher();

		QueryParser parser = new QueryParser(Version.LUCENE_36, "mycontent", new StandardAnalyzer(Version.LUCENE_36));

		try {

			Query query = parser.parse(expr);

			TopDocs tds = searcher.search(query, (pageIndex-1)*pageSize);

			//使用IndexSearcher.searchAfter()搜索,该方法第一个参数为上一页记录中的最后一条记录

			if(pageIndex > 1){

				tds = searcher.searchAfter(tds.scoreDocs[(pageIndex-1)*pageSize-1], query, pageSize);

			}else{

				tds = searcher.searchAfter(null, query, pageSize);

			}

			for(ScoreDoc sd : tds.scoreDocs){

				Document doc = searcher.doc(sd.doc);

				System.out.println("文档编号:" + sd.doc + "-->" + doc.get("myname") + "-->" + doc.get("mycontent"));

			}

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			if(null != searcher){

				try {

					searcher.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

		}

	}

}

下面是JUnit4.x编写的测试

package com.jadyer.test;



import java.io.File;



import org.junit.Before;

import org.junit.Test;



import com.jadyer.lucene.HelloSearch;



public class HelloSearchTest {

	private HelloSearch hello;

	

	@Before

	public void init(){

		hello = new HelloSearch();

	}

	

	

	@Test

	public void searchByTerm(){

		hello.searchByTerm("content", "my");

	}

	

	

	@Test

	public void searchByTermRange(){

		hello.searchByTermRange("name", "M", "o");

	}

	

	

	@Test

	public void searchByNumericRange(){

		hello.searchByNumericRange("attach", 2, 5);

	}

	

	

	@Test

	public void searchByPrefix(){

		hello.searchByPrefix("content", "b");

	}

	

	

	@Test

	public void searchByWildcard(){

		hello.searchByWildcard("name", "Ja??er");

	}

	

	

	@Test

	public void searchByFuzzy(){

		hello.searchByFuzzy("name", "Jadk");

	}

	

	

	@Test

	public void searchByBoolean(){

		hello.searchByBoolean();

	}

	

	

	@Test

	public void searchByPhrase(){

		hello.searchByPhrase();

	}

	

	

	@Test

	public void searchByQueryParse(){

		hello.searchByQueryParse();

	}

	

	

	@Test

	public void searchPage(){

		for(File file : new File("myExample/03_index/").listFiles()){

			file.delete();

		}

		hello = new HelloSearch(true);

		hello.searchPage("mycontent:javase", 2, 10);

	}

	

	

	@Test

	public void searchPageByAfter(){

		for(File file : new File("myExample/03_index/").listFiles()){

			file.delete();

		}

		hello = new HelloSearch(true);

		hello.searchPageByAfter("mycontent:javase", 3, 10);

	}

}

IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
搜索引擎技术选型 dusty_giser
近期，业主对POI检索提出了一些想法，针对之前简单的WordSegment分词和模糊匹配搜索需要进行一些更为符合业主需求的调整。于是这几天对搜索引擎进行了一些技术选型；一、ApacheLucene Lucene是一个开源的高性能、可扩展的全文检索引擎工具包，但不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。所以它是一套信息检索工具包，可以说是当今最先进
使用Python操作ElasticSearch 完美代码 elasticsearch 搜索引擎 python Python
使用Python操作ElasticSearchElasticsearch是一个基于Lucene的搜索引擎，它提供了一个可扩展的多用户全文搜索引擎。使用Python操作ElasticSearch可以非常方便地进行索引和搜索。创建索引在操作ElasticSearch之前，首先需要创建一个索引。下面是一个简单的Python代码示例，用于创建一个名为“my_index”的索引，并定义了一个类型“my_ty
【Lucene】lucene的searcher.search查询机制 risc123456 lucene
lucene查询的时候也是先评分排序，最后才获取文档甚至获取文档都不是必须的？是的，你的理解完全正确。1.Lucene查询流程=先评分&排序，后可选地取回文档-IndexSearcher.search(...)在内部先创建`Weight`、`Scorer`，再交给Collector遍历倒排表。-Collector（如TopScoreDocCollector）一边遍历一边实时计算score并维护一个
【Lucene】leafreadercontext逻辑段与segment物理磁盘段的关系 risc123456 Elasticsearch lucene
在Lucene中，“叶子段”（LeafReaderContext）和“segment”（物理段）在Lucene语境下，LeafReaderContext≈segment的运行时只读视图。概念所在层次含义是否一一对应segment物理存储层Lucene索引在磁盘上被拆分为多个段（每个段一个`_X`命名的文件集）。每个segment是一个完整的倒排索引子集，包含倒排表、存储字段、DocValue等。✅
TwoPhaseIterator 两阶段验证 risc123456 lucene
下面给出可直接拷贝运行的Lucene8.5.0示例，演示TwoPhaseIterator两阶段验证的完整流程。场景：使用`PhraseQuery`（短语查询），它天然携带`TwoPhaseIterator`，第一阶段通过倒排表拿到“候选文档”，第二阶段验证词间距与顺序。---1.依赖（Maven）```xmlorg.apache.lucenelucene-core8.5.0org.apache.l
lucene 9.10向量检索基本用法成长的小牛233 lucene 全文检索
Lucene9.10中的KnnFloatVectorQuery是用来执行最近邻（k-NearestNeighbors，kNN）搜索的查询类，它可以在一个字段中搜索与目标向量最相似的k个向量。以下是KnnFloatVectorQuery的基本用法和代码示例。1.索引向量字段首先，你需要一个包含向量字段的索引。你可以使用KnnFloatVectorField来添加向量到文档中。importorg.ap
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
深度解析Lucene IndexWriter 性能优化微笑听雨。 java 进阶教程 lucene indexWriter 全文检索性能调优内存缓冲
深度解析LuceneIndexWriter性能优化目标：在大规模写入、频繁更新的场景下，既保持吞吐量，又兼顾搜索实时性与系统稳定性。关键调优点内存缓冲：将RAMBufferSizeMB提升至128–1024MB，减少flush次数；必要时配合maxBufferedDocs。合并策略：使用TieredMergePolicy，典型参数为maxMergeAtOnce4–8、segmentsPerTier
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
从源码角度了解Elasticsaerch(分布式协调排序、深分页问题)
引文Elasticsearch基于Lucene所以很多系统实现都在其中,所以可以先看看Lucene的实现:https://blog.csdn.net/qq_35040959/article/details/147931034项目组件不像Kafka这种顶级项目核心性能组件全自己实现,ELK中有很多引用至第三方开放库;网络模型-Netty网络模型多重要不必多说,Elasticsearch基于Netty
ELK在Java的使用 hqxstudying ELK java 日志 elasticsearch
在Java应用里运用ELK（Elasticsearch、Logstash、Kibana）技术栈，能够实现日志的集中化管理、高效搜索以及直观可视化。下面将从基础概念入手，逐步深入讲解其使用方法。一、基础概念ELK技术栈由三款开源工具构成：Elasticsearch：作为分布式搜索引擎，它基于Lucene开发，具备强大的全文检索和数据分析能力。Logstash：属于数据收集引擎，可对多源数据进行收集、
基于lucene的案例开发：实时索引管理类IndexManager
转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/44015983http://www.llwjy.com/blogdetail/5757ce8c007754704b563dd6a47ca1ca.html个人的博客小站也搭建成功，网址：www.llwjy.com，欢迎大家来吐槽~在前一篇博客中，对实时索引的实现原理做了一些简单的介绍
Elasticsearch 海量数据写入与高效文本检索实践指南 weixin_52755040 运维 es
Elasticsearch海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称ES）作为一款基于Lucene的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和分析能力，成为处理海量数据写入与文本检索的热门选择。本文将深入探讨如何在ES中实现海量数据的高效写入，并利用其强大的功能进行精准的文本检索，帮助开发者和技术人
solr教程，值得刚接触搜索开发人员一看 LarryHai6 IT-文档存储架构全文检索 lucene 企业搜索
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人日期V1.0gzk2013-06-041.Solr是什么？Solr它是一种开放源码的、基于LuceneJava的搜
ES分片（Shard）和副本（Replica）的作用？如何合理分配？搞不懂语言的程序员 elasticsearch 中间件 elasticsearch 大数据搜索引擎
ES分片和副本一、分片（Shard）的作用数据水平扩展将索引拆分为多个分片（默认5个），实现海量数据分布式存储和并行计算读写负载均衡每个分片作为独立的Lucene索引，支持并发读写操作，提升吞吐量故障隔离能力单个分片故障不会导致整个索引不可用，其他分片仍可继续提供服务二、副本（Replica）的作用数据高可用每个分片的副本（默认1个）存储在不同节点，主分片故障时副本自动升级为主分片读取性能提升副本
规则包含使用分词和JDK自带流式stream处理效率对比--分词lucene-word过滤与JDK的contains方法对比苦思冥想行则将至 word分词数据过滤 java过滤数据过滤数据效率 20万关键字处理
目录前言：1、lucene分词工具的使用2、分词word与JDK的stream流式过滤实现测试结果2.1通过包含20万条数据与否，进行效率对比2.2打印执行时间差，来实现效率对比3、一次性触发20万条数据执行进行Mysql记录执行结果，参数，耗时，入参4、数据库截图展示统计结果，JDK的效率更高一些前言：在数据过滤以及处理的过程中，会用到分词工具对于大文本的信息内容进行处理，作为java开发，经常
Springboot基于ElasticSearch全文搜索引擎策略实现 LQzhang_11 JAVA 缓存 Spring 搜索引擎 spring boot elasticsearch
一、ElasticSearch概念简介ElasticSearch是一个基于Lucene的开源搜索引擎，具有分布式、多租户能力的全文搜索引擎。ElasticSearch的设计目标是实现分布式、可扩展和速度快的搜索架构，使得用户在数据量较大的情况下依然能够快速高效地对数据进行搜索和分析。ElasticSearch使用RESTfulAPI进行操作，支持结构化、非结构化数据的索引和搜索，适合用来解决大量数
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
Elasticsearch 方法论 catkin_ws 数据库
人工智能、大数据快速发展的今天，对于TB甚至PB级大数据的快速检索已然成为刚需。Elasticsearch作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。Elasticsearch以其开源、分布式、RESTFulAPI三大优势，已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与Elasticsearch、Lucene内核优化、改进。如果说，你
69道Elasticsearch高频题整理(附答案背诵版) Zeyhra elasticsearch jenkins 大数据
简述什么是Elasticsearch？参考回答Elasticsearch是一个基于分布式架构的开源搜索引擎，使用全文检索引擎ApacheLucene作为底层技术实现。它能够提供强大的搜索、数据存储和分析功能，适用于海量数据的实时搜索和分析场景。Elasticsearch的核心特点全文检索：提供强大的全文检索能力，支持模糊搜索、前缀搜索、短语搜索等多种高级搜索功能。分布式架构：支持水平扩展，数据分布
面试专区|【69道Elasticsearch高频题整理(附答案背诵版)】尺小闹面试 elasticsearch 职场和发展
简述什么是Elasticsearch？Elasticsearch是一个基于Lucene的搜索服务器，它提供了一个分布式、多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。它用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#
ElasticSearch的基本概念：索引类型文档和映射 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍ElasticSearch是一个基于Lucene的分布式搜索引擎，它提供了一个简单易用的RESTfulAPI，可以快速地进行全文搜索、结构化搜索、分析和聚合等操作。在ElasticSearch中，最基本的概念包括索引、类型、文档和映射。本文将详细介绍这些概念的含义和联系，以及它们在ElasticSearch中的具体实现和应用。2.核心概念与联系2.1索引索引是ElasticSearch
ElasticSearch 2.x入门与快速实践爱美有喜技术漫谈 elasticsearch 分布式搜索引擎索引
IntroductionElasticSearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。Elas
ElasticSearch es 插件开发 2501_90252573 elasticsearch 大数据搜索引擎
PythonLanguageSecurityPlugins安全插件扩展es的安全策略，比如控制api的访问权限等优秀插件代表：X-PackSnapshot/RestoreRepositoryPlugins快照/还原存储库插件扩展es的快照和恢复功能StorePlugins存储插件扩展es的存储方式，es默认使用的是Lucene存储数据的优秀插件代表：StoreSMBWindowsSMB2.插件开发
Elasticsearch 快速入门指南 Luck_ff0810 开发工具 Java elasticsearch elasticsearch 大数据搜索引擎
1.Elasticsearch简介Elasticsearch是一个基于Lucene的开源分布式搜索和分析引擎，由Elastic公司开发。它具有以下特点：分布式：可以轻松扩展到数百台服务器，处理PB级数据实时性：数据一旦被索引，立即可被搜索全文检索：强大的全文搜索能力RESTfulAPI：提供简单易用的JSON风格API多功能：不仅是搜索引擎，还是强大的分析引擎2.核心概念在深入Elasticsea
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能

你可能感兴趣的:(Lucene)