Lucene分析


正如我們已經看到在前一章的Lucene索引過程,Lucene使用IndexWriterwhich分析用分析儀檔案,然後根據需要建立/開啟/編輯索引。在本章中,我們將討論不同型別的分析物件,哪些是在分析過程中使用的相關物件。了解分析過程中,分析儀如何工作,會給Lucene索引檔案很大的啟示。

以下是我們將在適當的時候討論物件的列表。

Sr. No. 類和說明
1 Token
令牌表示(起始偏移量,結束偏移,令牌型別和位置增量位置,)在像它的後設資料相關的詳細資訊的文件中的文字或字。
2 TokenStream
TokenStream是分析過程中的一個輸出,它包括串聯的令牌。它是一個抽象類。
3 Analyzer
這是對每個型別分析器的抽象基礎類別。
4 WhitespaceAnalyzer
該分析儀analyzer分割的基礎的空白文件中的文字。
5 SimpleAnalyzer
此分析器分割在基於非字母字元的文件的文字,然後小寫它們。
6 StopAnalyzer
該分析儀的工作原理類似於SimpleAnalyzer並刪除常用詞像 'a','an','the'等等。
7 StandardAnalyzer
這是最複雜的分析,並能處理姓名,電子郵件地址等,它小寫每個標記,並刪除常用詞和標點符號(如有)。