Tika教學


Apache Tika 是什麼?

  • Apache Tika用於檔案型別檢測和從各種格式的檔案內容提取的庫。

  • 在內部,Tika使用現有的各種檔案解析器和文件型別的檢測技術來檢測和提取資料。

  • 使用Tika,人們可以開發出通用型檢測器和內容提取到的不同型別的檔案,如電子試算表,文字檔案,影象,PDF檔案甚至多媒體輸入格式,在一定程度上提取結構化文字以及後設資料。

  • Tika提供用於解析不同檔案格式的一個通用API。它採用83個現有的專業解析器庫,為每個文件型別。

  • 所有這些解析器庫是根據一個叫做Parser介面單一介面封裝。

Appache Tika

為什麼用Tika?

據filext.com網站統計,大約有1.5萬至51K的內容型別,並且這個數位還在與日俱增。資料被儲存在不同的格式,如文字文件,excel表格,PDF,影象和多媒體檔案,僅舉幾例。因此,應用程式如搜尋引擎和內容管理系統需要從這些文件型別容易提取資料的額外的支援。Apache Tika 通過提供一個通用的API來檢測並提取多種檔案格式的資料服務達到這一目的。

Apache Tika 應用

有各種各樣的應用程式使用Apache Tika。在這裡,我們將討論嚴重依賴Apache Tika幾個突出的應用。

搜尋引擎

開發搜尋引擎索引的數位文件的文字內容使Tika被廣泛使用。

  • 搜尋引擎是用於搜尋的網頁資訊和索引檔案的資訊處理系統。

  • 抓取工具是通過Web抓取獲取使用一些索引技術被索引的檔案搜尋引擎的重要組成部分。此後,抓取工具傳送這些索引檔案提取成分。

  • 提取成分的職責是提取文件中的文字和後設資料。這樣提取的內容和後設資料是對搜尋引擎非常有用。該提取元件包含在Tika中。

  • 然後將提取的內容被傳遞到使用它來建立一個搜尋索引搜尋引擎的索引器。此外,該搜尋引擎使用許多其它方式提取的內容也是如此。

Search Engine

文件分析

  • 在人工智慧領域,有一定的工具來自動分析檔案在語意層面,並提取各種資料來自他們。

  • 在這種應用中,這些檔案是基於在文件的所提取的內容的突出方面進行分類。

  • 這些工具使用提Tika內容提取分析從純文字到不同的數位文件檔案。

數位資產管理

  • 有些組織管理他們的數位資產,如使用一種稱為數位資產管理(DAM)的特殊應用程式的照片,電子書,繪圖,音樂和視訊。

  • 這樣的應用程式採取的檔案型別檢測器和後設資料提取器的幫助下到的各種檔案進行分類。

內容分析

  • 像亞馬遜網站建議根據自己的興趣剛剛發佈了他們的網站內容向個人使用者。要做到這一點,這些網站遵循機器學習技術,或採取了類似Facebook的社交媒體網站的幫助下,以提取所需的資訊,如喜歡和使用者的利益。此收集到的資訊將在HTML標籤或其他格式需要另外的內容型別檢測和提取的形式。

  • 為一個檔案,內容分析,我們有實現,如UIMA和Mahout的機器學習技術的技術。這些技術是在聚類和分析中的檔案中的資料是有用的。

  • Apache Mahout是一個框架,它提供基於Apache Hadoop的ML演算法- 一個雲端計算平台。 Mahout 提供了下面的某個叢集和過濾技術的架構。按照這個架構,程式員可以編寫自己的ML演算法,通過採取各種文字和後設資料的組合來產生建議。提供輸入這些演算法,最近Mahout的版本使用Tika提取二進位制內容的文字和後設資料。

  • Apache UIMA 分析和處理各種程式設計語言,並產生UIMA註解。在內部,它使用提卡註解者抽取文件中的文字和後設資料。

歷史

年份 開發
2006 Tika的想法是在Lucene專案管理委員會之前設計的。
2006 Tika及其在Jackrabbit專案有用的概念進行了討論。
2007 Tika進入Apache孵化器。
2008 版本0.1和0.2發布,Tika從孵化器到Lucene子專案獨立。
2009 版本0.3,0.4,和0.5發布。
2010 版本0.6和0.7發布,Tika進入Apache的頂級專案。
2011 Tika1.0發布,並Tika的書籍“Tika in Action”也在同一年被發布。