正如我們已經看到在前一章的Lucene索引過程,Lucene使用IndexWriterwhich分析用分析儀檔案,然後根據需要建立/開啟/編輯索引。在本章中,我們將討論不同型別的分析物件,哪些是在分析過程中使用的相關物件。了解分析過程中,分析儀如何工作,會給Lucene索引檔案很大的啟示。
以下是我們將在適當的時候討論物件的列表。
Sr. No. | 類和說明 |
---|---|
1 |
Token 令牌表示(起始偏移量,結束偏移,令牌型別和位置增量位置,)在像它的後設資料相關的詳細資訊的文件中的文字或字。 |
2 |
TokenStream TokenStream是分析過程中的一個輸出,它包括串聯的令牌。它是一個抽象類。 |
3 |
Analyzer 這是對每個型別分析器的抽象基礎類別。 |
4 |
WhitespaceAnalyzer 該分析儀analyzer分割的基礎的空白文件中的文字。 |
5 |
SimpleAnalyzer 此分析器分割在基於非字母字元的文件的文字,然後小寫它們。 |
6 |
StopAnalyzer 該分析儀的工作原理類似於SimpleAnalyzer並刪除常用詞像 'a','an','the'等等。 |
7 |
StandardAnalyzer 這是最複雜的分析,並能處理姓名,電子郵件地址等,它小寫每個標記,並刪除常用詞和標點符號(如有)。 |