简单的lucene实例

Java代码     收藏代码
  1. package TestLucene;  
  2. import java.io.File;  
  3. import java.io.FileReader;  
  4. import java.io.Reader;  
  5. import java.util.Date;  
  6. import org.apache.lucene.analysis.Analyzer;  
  7. import org.apache.lucene.analysis.standard.StandardAnalyzer;  
  8. import org.apache.lucene.document.Document;  
  9. import org.apache.lucene.document.Field;  
  10. import org.apache.lucene.index.IndexWriter;  
  11. /** 
  12.  * This class demonstrate the process of creating index with Lucene  
  13.  * for text files 
  14.  */  
  15. public class TxtFileIndex {  
  16.     public static void main(String[] args) throws Exception{  
  17.         //设置索引地址  
  18.         File   indexDir = new File("D:\\luceneIndex");  
  19.         //设置数据地址  
  20.         File   dataDir  = new File("D:\\luceneData");  
  21.         //建立分词  
  22.         Analyzer luceneAnalyzer = new StandardAnalyzer();  
  23.         //取得目录下所有Files  
  24.         File[] dataFiles  = dataDir.listFiles();  
  25.         //建立indexWrite  indexWrite主要作用是添加索引  
  26.         IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);  
  27.         //取得程序开启时间  
  28.         long startTime = new Date().getTime();  
  29.         //循环文件  
  30.         for(int i = 0; i < dataFiles.length; i++){  
  31.             //取出txt后缀的文档  
  32.             if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){  
  33.                 System.out.println("Indexing file " + dataFiles[i].getCanonicalPath());  
  34.                 //新建一个Document  
  35.                 Document document = new Document();  
  36.                 //读取数据  
  37.                 Reader txtReader = new FileReader(dataFiles[i]);  
  38.                 //Document添加path  
  39.                 document.add(new Field("path", dataFiles[i].getCanonicalPath(), Field.Store.YES, Field.Index.UN_TOKENIZED));  
  40.                 //Document添加正文  
  41.                 document.add(new Field("contents",txtReader));  
  42.                 //添加索引  
  43.                 indexWriter.addDocument(document);  
  44.             }  
  45.         }  
  46.         indexWriter.optimize();  
  47.         indexWriter.close();  
  48.         long endTime = new Date().getTime();  
  49.           
  50.         //输出程序所用时间  
  51.         System.out.println("It takes " + (endTime - startTime)   
  52.                            + " milliseconds to create index for the files in directory "  
  53.                            + dataDir.getPath());          
  54.     }  
  55. }  

Java代码     收藏代码
  1. //pizza  
  2. package TestLucene;  
  3. import java.io.File;  
  4.   
  5. import org.apache.log4j.Logger;  
  6. import org.apache.lucene.document.Document;  
  7. import org.apache.lucene.index.Term;  
  8. import org.apache.lucene.search.Hits;  
  9. import org.apache.lucene.search.IndexSearcher;  
  10. import org.apache.lucene.search.TermQuery;  
  11. import org.apache.lucene.store.FSDirectory;  
  12. /** 
  13.  * This class is used to demonstrate the  
  14.  * process of searching on an existing  
  15.  * Lucene index 
  16.  * 
  17.  */  
  18. public class TxtFileSearcher {  
  19.     public static void main(String[] args) throws Exception{  
  20.         Logger logger=Logger.getLogger(TxtFileSearcher.class);  
  21.         //要查询的词组  
  22.         String queryStr = "com.log4j.test.TestLog.main";  
  23.         //索引地址  
  24.         File indexDir = new File("D:\\luceneIndex");  
  25.         //取得索引字典  
  26.         FSDirectory directory = FSDirectory.getDirectory(indexDir,false);  
  27.         //建立查询  
  28.         IndexSearcher searcher = new IndexSearcher(directory);  
  29.         //查询的索引地址是否存在  
  30.         if(!indexDir.exists()){  
  31.             System.out.println("The Lucene index is not exist");  
  32.             return;  
  33.         }  
  34.         //建立term 查询docuemnt中contents中的内容(内容要转为大字)  
  35.         Term term = new Term("contents",queryStr.toLowerCase());  
  36.         //进行查询  
  37.         TermQuery luceneQuery = new TermQuery(term);  
  38.         //生成结果  
  39.         Hits hits = searcher.search(luceneQuery);  
  40.         for(int i = 0; i < hits.length(); i++){  
  41.             //取得结果中的dowuemnt  
  42.             Document document = hits.doc(i);  
  43.             //取得返回的path属性  
  44.             System.out.println("File: " + document.get("path"));  
  45.         }  
  46.     }  
  47. }  


Lucene 的四大索引查询 
清单1:使用布尔操作符 
Java代码     收藏代码
  1. //Test boolean operator  
  2. blic void testOperator(String indexDirectory) throws Exception{  
  3.  Directory dir = FSDirectory.getDirectory(indexDirectory,false);  
  4.  IndexSearcher indexSearcher = new IndexSearcher(dir);  
  5.  String[] searchWords = {"Java AND Lucene""Java NOT Lucene""Java OR Lucene",   
  6.                   "+Java +Lucene""+Java -Lucene"};  
  7.  Analyzer language = new StandardAnalyzer();  
  8.  Query query;  
  9.  for(int i = 0; i < searchWords.length; i++){  
  10.     query = QueryParser.parse(searchWords[i], "title", language);  
  11.     Hits results = indexSearcher.search(query);  
  12.     System.out.println(results.length() + "search results for query " + searchWords[i]);  
  13.  }  



域搜索(Field Search) 

Lucene 支持域搜索,你可以指定一次查询是在哪些域(Field)上进行。例如,如果索引的文档包含两个域,Title 和 Content,你就可以使用查询 “Title: Lucene AND Content: Java” 来返回所有在 Title 域上包含 Lucene 并且在 Content 域上包含 Java 的文档。清单 2 显示了如何利用 Lucene 的 API 来实现域搜索。 


清单2:实现域搜索 
Java代码     收藏代码
  1. //Test field search  
  2. public void testFieldSearch(String indexDirectory) throws Exception{  
  3.     Directory dir = FSDirectory.getDirectory(indexDirectory,false);  
  4.     IndexSearcher indexSearcher = new IndexSearcher(dir);  
  5.     String searchWords = "title:Lucene AND content:Java";  
  6.     Analyzer language = new StandardAnalyzer();  
  7.     Query query = QueryParser.parse(searchWords, "title", language);  
  8.     Hits results = indexSearcher.search(query);  
  9.     System.out.println(results.length() + "search results for query " + searchWords);  
  10. }  
  11.    


通配符搜索(Wildcard Search) 

Lucene 支持两种通配符:问号(?)和星号(*)。你可以使用问号(?)来进行单字符的通配符查询,或者利用星号(*)进行多字符的通配符查询。例如,如果你想搜索 tiny 或者 tony,你就可以使用查询语句 “t?ny”;如果你想查询 Teach, Teacher 和 Teaching,你就可以使用查询语句 “Teach*”。清单3 显示了通配符查询的过程。 


清单3:进行通配符查询 
Java代码     收藏代码
  1. //Test wildcard search  
  2. public void testWildcardSearch(String indexDirectory)throws Exception{  
  3.    Directory dir = FSDirectory.getDirectory(indexDirectory,false);  
  4.    IndexSearcher indexSearcher = new IndexSearcher(dir);  
  5.    String[] searchWords = {"tex*""tex?""?ex*"};  
  6.    Query query;  
  7.    for(int i = 0; i < searchWords.length; i++){  
  8.       query = new WildcardQuery(new Term("title",searchWords[i]));  
  9.       Hits results = indexSearcher.search(query);  
  10.       System.out.println(results.length() + "search results for query " + searchWords[i]);  
  11.    }  
  12. }  
  13.    


模糊查询 

Lucene 提供的模糊查询基于编辑距离算法(Edit distance algorithm)。你可以在搜索词的尾部加上字符 ~ 来进行模糊查询。例如,查询语句 “think~” 返回所有包含和 think 类似的关键词的文档。清单 4 显示了如果利用 Lucene 的 API 进行模糊查询的代码。 


清单4:实现模糊查询 
Java代码     收藏代码
  1. //Test fuzzy search  
  2. public void testFuzzySearch(String indexDirectory)throws Exception{  
  3.    Directory dir = FSDirectory.getDirectory(indexDirectory,false);  
  4.    IndexSearcher indexSearcher = new IndexSearcher(dir);  
  5.    String[] searchWords = {"text""funny"};  
  6.    Query query;  
  7.    for(int i = 0; i < searchWords.length; i++){  
  8.       query = new FuzzyQuery(new Term("title",searchWords[i]));  
  9.       Hits results = indexSearcher.search(query);  
  10.       System.out.println(results.length() + "search results for query " + searchWords[i]);  
  11.    }  
  12. }  
  13.    


范围搜索(Range Search) 

范围搜索匹配某个域上的值在一定范围的文档。例如,查询 “age:[18 TO 35]” 返回所有 age 域上的值在 18 到 35 之间的文档。清单5显示了利用 Lucene 的 API 进行返回搜索的过程。 


清单5:测试范围搜索 

Java代码     收藏代码
  1. //Test range search  
  2. public void testRangeSearch(String indexDirectory)throws Exception{  
  3.     Directory dir = FSDirectory.getDirectory(indexDirectory,false);  
  4.     IndexSearcher indexSearcher = new IndexSearcher(dir);  
  5.     Term begin = new Term("birthDay","20000101");  
  6.     Term end   = new Term("birthDay","20060606");  
  7.     Query query = new RangeQuery(begin,end,true);  
  8.     Hits results = indexSearcher.search(query);  
  9.     System.out.println(results.length() + "search results is returned");  
  10. }  

你可能感兴趣的:(简单的lucene实例)