Lucene分析 - tw511教學網

正如我們已經看到在前一章的Lucene索引過程，Lucene使用IndexWriterwhich分析用分析儀檔案，然後根據需要建立/開啟/編輯索引。在本章中，我們將討論不同型別的分析物件，哪些是在分析過程中使用的相關物件。了解分析過程中，分析儀如何工作，會給Lucene索引檔案很大的啟示。

以下是我們將在適當的時候討論物件的列表。

Sr. No.	類和說明
1	Token 令牌表示(起始偏移量，結束偏移，令牌型別和位置增量位置，)在像它的後設資料相關的詳細資訊的文件中的文字或字。
2	TokenStream TokenStream是分析過程中的一個輸出，它包括串聯的令牌。它是一個抽象類。
3	Analyzer 這是對每個型別分析器的抽象基礎類別。
4	WhitespaceAnalyzer 該分析儀analyzer分割的基礎的空白文件中的文字。
5	SimpleAnalyzer 此分析器分割在基於非字母字元的文件的文字，然後小寫它們。
6	StopAnalyzer 該分析儀的工作原理類似於SimpleAnalyzer並刪除常用詞像 'a','an','the'等等。
7	StandardAnalyzer 這是最複雜的分析，並能處理姓名，電子郵件地址等，它小寫每個標記，並刪除常用詞和標點符號(如有)。