關於Apache Tika的學習和使用
一. Apache Tika的簡介
Apache Tika 是利用現有的解析類庫,從不同格式的文件中(例如HTML, PDF, Doc),偵測和提取出後設資料和結構化內容。該專案的目標使用群體主要為搜尋引擎以及其他內容索引和分析工具,程式語言為Java。
其功能包括:
1.偵測文件的型別,字元編碼,語言,等其他現有文件的屬性。
2.提取結構化的文字內容。
Tika的架構:
下圖為Tika的架構以及關鍵零部件的主要設計目標:由一個解析器框架,MIME檢測機制,語言檢測,和一個facade元件聯絡所有元件。外部介面,包括命令列和圖形介面,允許使用者整合到指令碼或者應用程式,並與Tika直接互動。在整個結構中,Tika的體系結構是可擴充套件的,新的解析器可以輕鬆地新增和刪除。
二. Tika的下載及安裝
下載並配置Java JDK
下載Tika的原始碼Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar
在cmd裡鍵入命令開啟GUI圖形介面
三. 檔案解析
先編寫一個二進位制檔案tika.txt
用GUI圖形介面開啟這個檔案,顯示提取的後設資料Metadata
再將其解析為其他格式
Formatted Text
Plain text
Main content為空
XML
json
四. 用命令列使用tika
檢視Tika命令列的基本引數
用命令將解析doc檔案
相關文章
- Apache Tika實戰Apache
- 關於Struts的學習和使用
- 文件提取工具 apache/tikaApache
- 關於Fragement的學習
- 關於SQLMAP的學習SQL
- 關於HTTP的學習HTTP
- 關於DDD的學習
- 關於學習
- 關於學習Vue和iOS的MVVM異同VueiOSMVVM
- shell學習—關於grep的簡單使用(轉)
- git學習:關於origin和masterGitAST
- 關於Apache的兩種工作模式prefork和workerApache模式
- 關於ModeAnalytics的學習
- 關於Fuzz——peach的學習
- banq:關於XML的學習XML
- 關於新框架的學習框架
- 關於axis的學習求教
- 關於SCRUM的學習心得Scrum
- 關於CCNA和學習方法的一點建議
- 關於學習之道
- 關於INNODB SYSTEM RECORD infimum和supremum的學習和實驗研究REM
- 關於不可見索引的學習索引
- 關於connet by的學習
- 關於設計模式的學習設計模式
- 關於正確使用Android AsyncTask學習整理Android
- 關於原始碼學習原始碼
- 關於linux多執行緒fork的理解和學習Linux執行緒
- 關於法學考研(刑法),我的學習方法
- 關於http(自己的學習筆記)HTTP筆記
- 關於學習心態的調整
- 關於學習Mongodb的幾篇文章MongoDB
- 關於mongodb的學習與探索二MongoDB
- 關於exp/imp的總結學習
- 關於Android ant build的學習AndroidUI
- muduo網路庫學習筆記(15):關於使用stdio和iostream的討論筆記iOS
- 關於 grouping sets 學習
- 關於OCP考題學習
- Spring學習01--初學者關於AOP和DI的理解Spring