PDFBox簡介


可攜式文件格式(PDF)是一種檔案格式,有助於以獨立於應用程式軟體,硬體和作業系統的方式呈現資料。

每個PDF檔案都包含固定布局平面文件的說明,包括顯示文字,字型,圖形和其他資訊。
有幾個庫可用於通過程式建立和操作PDF文件,例如 -

  • Adobe PDF庫 - 該庫提供C++,.NET和Java等語言的API,使用此庫可以編輯,檢視列印和從PDF文件中提取文字。

  • 格式化物件處理器 - 由XSL格式化物件和輸出獨立格式化程式驅動的開源列印格式化程式。 主要輸出目標是PDF。

  • iText - 這個庫提供了Java, C# 和其他.NET語言等語言的API,使用這個庫可以建立和操作PDF,RTF和HTML文件。

  • JasperReports - 這是一個Java報告工具,可在PDF文件中生成報告,包括Microsoft Excel,RTF,ODT,逗號分隔值和XML檔案。

PDFBox是什麼?

Apache PDFBox是一個開源的Java庫,支援PDF文件的開發和轉換。 使用這個庫,可以開發建立,轉換和操作PDF文件的Java程式。

除此之外,PDFBox還包含一個命令列實用程式,用於使用可用的Jar檔案對PDF執行各種操作。

PDFBox的特點

下面列出PDFBox的特點 -

  • 提取文字 - 使用PDFBox,可以從PDF檔案中提取Unicode文字。
  • 拆分和合併 - 使用PDFBox,可以將單個PDF檔案分割成多個檔案,並將它們合併為一個檔案。
  • 填寫表單 - 使用PDFBox,可以將填寫表單填入文件中。
  • 列印 - 使用PDFBox,可以使用標準Java列印API列印PDF檔案。
  • 另存為影象 - 使用PDFBox,可以將PDF儲存為影象檔案,例如:PNGJPEG
  • 建立PDF - 使用PDFBox,可以通過建立Java程式來建立一個新的PDF檔案,並且還可以包含影象和字型。
  • 簽名 - 使用PDFBox,可以將數位簽名新增到PDF檔案。

PDFBox的應用

以下是PDFBox的應用 -

  • Apache Nutch - Apache Nutch是一款開源的網路搜尋軟體。它建立在Apache Lucene的基礎上,新增了一些特定於web的內容,例如:爬蟲,連結圖資料庫,用於HTML和其他文件格式的解析器等。

  • Apache Tika - Apache Tika是一個使用現有解析器庫從各種文件檢測和提取後設資料和結構化文字內容的工具包。

PDFBox的元件

以下是PDFBox的四個主要元件 -

  • PDFBox - 這是PDFBox的主要部分。 這包含與內容提取和操作相關的類和介面。
  • FontBox - 包含與字型相關的類和介面,使用這些類可以修改PDF文件的文字字型。
  • XmpBox - 包含處理XMP後設資料的類和介面。
  • Preflight - 此元件用於根據PDF/A-1b標準驗證PDF檔案。