關於Apache Tika的學習和使用

weixin_33890499發表於2018-05-18

一. Apache Tika的簡介

Apache Tika 是利用現有的解析類庫,從不同格式的文件中(例如HTML, PDF, Doc),偵測和提取出後設資料和結構化內容。該專案的目標使用群體主要為搜尋引擎以及其他內容索引和分析工具,程式語言為Java。

其功能包括:
1.偵測文件的型別,字元編碼,語言,等其他現有文件的屬性。
2.提取結構化的文字內容。

Tika的架構:
下圖為Tika的架構以及關鍵零部件的主要設計目標:由一個解析器框架,MIME檢測機制,語言檢測,和一個facade元件聯絡所有元件。外部介面,包括命令列和圖形介面,允許使用者整合到指令碼或者應用程式,並與Tika直接互動。在整個結構中,Tika的體系結構是可擴充套件的,新的解析器可以輕鬆地新增和刪除。


11759588-e8be8c513acff2c9.JPG
1358587548_5967.JPG

二. Tika的下載及安裝

下載並配置Java JDK
下載Tika的原始碼Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar

11759588-b37a229b2669b851
image

在cmd裡鍵入命令開啟GUI圖形介面


11759588-444f2c5ce12510ab.png
QQ圖片20180521224546.png

11759588-7e9d3da5070e9ec1.png
image.png

三. 檔案解析

先編寫一個二進位制檔案tika.txt


11759588-fa21d7a9f1905047.png
QQ圖片20180521224615.png

用GUI圖形介面開啟這個檔案,顯示提取的後設資料Metadata


11759588-333076835ba3420b.png
QQ圖片20180521224605.png

再將其解析為其他格式
Formatted Text


11759588-b6211daca1963d6b.png
QQ圖片20180521224622.png

Plain text


11759588-9d18dca8f43b28fd.png
QQ圖片20180521224626.png

Main content為空
11759588-f87f1d98265497d3.png
QQ圖片20180521224630.png

XML
11759588-2a83328125635b4b.png
QQ圖片20180521224635.png

json


11759588-e9c0d77f5d79893a.png
QQ圖片20180521224639.png

四. 用命令列使用tika

檢視Tika命令列的基本引數


11759588-5b3d9a212fc6ec8e.png
QQ圖片20180521224642.png

用命令將解析doc檔案


11759588-0e1fd280fe7575d2.png
QQ圖片20180521224655.png

相關文章