TIKA參考API


使用者可以在使用 Tika 的外觀類在應用程式中嵌入Tika。它的方法來探索Tika的所有功能。因為它是一個外網類,Tika抽象的背後有其功能的複雜性。除了這一點,使用者還可以使用各種Tika類在他們的應用程式。

User Application

Tika 類 (facade)

這是最突出的Tika類庫和正面設計模式。因此,抽象所有的內部實現,並提供了簡單的方法來存取Tika功能。下表列出該類別建構函式以及它們的描述。

package : org.apache.tika

class: Tika

S.No. 建構函式和說明
1

Tika ()

使用預設組態,構建Tika類。

2

Tika (Detector detector)

通過接受檢測範例作為引數建立 Tika 外觀

3

Tika (Detector detector, Parser parser)

建立一個Tika外觀通過接受檢測和解析器範例作為引數。

4

Tika (Detector detector, Parser parser, Translator translator)

建立一個Tika外觀通過接受檢測器,解析器,並且轉換範例作為引數。

5

Tika (TikaConfig config)

建立一個Tika外觀通過接受TikaConfig類作為引數的物件。

方法和說明

以下是 Tika外觀類的重要方法:

S.No. 方法和描述
1

String parseToString (File file)

此方法及其所有變種分析作為引數傳遞的檔案,並返回字串格式提取的文字內容。預設情況下,這個字串引數的長度是有限的。

2

int getMaxStringLength ()

返回由parseToString方法返回字串的最大長度。

3

void setMaxStringLength (int maxStringLength)

設定由parseToString方法返回的字串的最大長度。

4

Reader parse (File file)

該方法及其所有變型解析作為引數傳遞的檔案,並返回 java.io.Reader物件的形式,所提取的文字內容。

5

String detect (InputStream stream, Metadata metadata)

該方法及其所有變接受InputStream物件和後設資料物件作為引數,檢測出給定文件的型別,並返回該檔案型別的名稱作為字串物件。這種方法提煉使用 Tika 的檢測手段。

6

String translate (InputStream text, String targetLanguage)

此方法及其所有變種接受InputStream物件,並表示,我們希望我們的文字被翻譯語言的字串,並把特定的文字所需的語言,嘗試自動檢測源語言。

解析器介面

這是Tika包的所有解析器類實現的介面。

package : org.apache.tika.parser

Interface : Parser

方法和說明

以下是TikaParser介面的重要方法:

S.No. 方法及描述
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

這個方法將給定的文件解析到XHTML和SAX事件序列。解析後,將放置在ContentHandler類的物件,並在後設資料的類的物件的後設資料,所提取的檔案的內容。

Metadata 類

這個類實現了各種介面,如素材,地理,HttpHeaders,訊息,微軟Office,氣候預測,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable介面,支援各種資料模型。下表列出了建構函式和這個類的方法及其說明。

package : org.apache.tika.metadata

class : Metadata

S.No. 構造方法及描述
1

Metadata()

構造一個新的,空的後設資料。

S.No. 方法及描述
1

add (Property property, String value)

增加了一個後設資料屬性/值對映到給定的檔案。使用此功能,可以將該值設定為一個屬性。

2

add (String name, String value)

增加了一個後設資料屬性/值對映到給定的檔案。使用這種方法,我們可以使用新名稱的值設定為一個檔案,從現有的後設資料。

3

String get (Property property)

返回給定的後設資料屬性的值(如果有的話)。

4

String get (String name)

返回給定後設資料的名稱的值(如果有的話)。

5

Date getDate (Property property)

返回日期的後設資料屬性的值。

6

String[] getValues (Property property)

返回的後設資料屬性的所有的值。

7

String[] getValues (String name)

返回給定後設資料的名稱的所有的值。

8

String[] names()

返回後設資料物件的後設資料元素的所有的名字。

9

set (Property property, Date date)

設定給定的後設資料屬性的日期值

10

set(Property property, String[] values)

設定多個值到一個後設資料屬性。

語言類識別符號

此分類標識了特定內容的語言。下表列出了這個類別建構函式以及它們的描述。

package : org.apache.tika.language

class : Language Identifier

S.No. 構造器和說明
1

LanguageIdentifier (LanguageProfile profile)

範例化的語言識別符號。在這裡必須通過一個LanguageProfile物件作為引數。

2

LanguageIdentifier (String content)

這個建構函式可以通過從文字內容傳遞一個String範例化一個語言識別符號

S.No. 構造器和說明
1

String getLanguage ()

返回給當前LanguageIdentifier物件的語言。