關於Apache Tika的學習和使用
一. Apache Tika的簡介
Apache Tika 是利用現有的解析類庫,從不同格式的文件中(例如HTML, PDF, Doc),偵測和提取出後設資料和結構化內容。該專案的目標使用群體主要為搜尋引擎以及其他內容索引和分析工具,程式語言為Java。
其功能包括:
1.偵測文件的型別,字元編碼,語言,等其他現有文件的屬性。
2.提取結構化的文字內容。
Tika的架構:
下圖為Tika的架構以及關鍵零部件的主要設計目標:由一個解析器框架,MIME檢測機制,語言檢測,和一個facade元件聯絡所有元件。外部介面,包括命令列和圖形介面,允許使用者整合到指令碼或者應用程式,並與Tika直接互動。在整個結構中,Tika的體系結構是可擴充套件的,新的解析器可以輕鬆地新增和刪除。
二. Tika的下載及安裝
下載並配置Java JDK
下載Tika的原始碼Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar
在cmd裡鍵入命令開啟GUI圖形介面
三. 檔案解析
先編寫一個二進位制檔案tika.txt
用GUI圖形介面開啟這個檔案,顯示提取的後設資料Metadata
再將其解析為其他格式
Formatted Text
Plain text
Main content為空
XML
json
四. 用命令列使用tika
檢視Tika命令列的基本引數
用命令將解析doc檔案
相關文章
- Apache Tika實戰Apache
- 文件提取工具 apache/tikaApache
- git學習:關於origin和masterGitAST
- 關於ModeAnalytics的學習
- 關於HTTP的學習HTTP
- 關於Fragement的學習
- 關於SQLMAP的學習SQL
- 關於SCRUM的學習心得Scrum
- 關於學習之道
- Spring學習01--初學者關於AOP和DI的理解Spring
- 關於linux多執行緒fork的理解和學習Linux執行緒
- 【機器學習基礎】關於深度學習的Tips機器學習深度學習
- 關於http(自己的學習筆記)HTTP筆記
- Myth 關於Git的學習筆記Git筆記
- 關於學習心態的調整
- 關於法學考研(刑法),我的學習方法
- 關於強化學習、深度學習deeplearning研修強化學習深度學習
- 關於結構體型別的學習結構體型別
- 關於資料結構的學習心得資料結構
- 關於MySQL8的WITH查詢學習MySql
- Jetpack Compose學習(6)——關於Modifier的妙用Jetpack
- 關於學習的一些建議
- 關於我在學習Swoole的痛點
- 關於深度學習的一些技巧深度學習
- 關於機器學習和AI的區別最經典的解釋機器學習AI
- pl/sql developer中關於TIMESTAMP顯示格式的疑問和學習SQLDeveloper
- 基於Spring Integration和Apache Camel的SEDASpringApache
- 關於社會機器學習機器學習
- 關於學習Web前端所需要的學習資料(免費送)Web前端
- Apache Ignite 學習筆記(6): Ignite中Entry Processor使用Apache筆記
- Apache Hadoop Yarn 學習(二)ApacheHadoopYarn
- 關於 isset 和邏輯運算子的使用
- Flutter之FutureBuilder的學習和使用FlutterRebuild
- golang中關於死鎖的思考與學習Golang
- 關於深度學習的一些淺見深度學習
- 從《守望先鋒》學習關於ECS的概述
- 關於XAMPP中Apache和Mysql因埠占用無法啟動的問題ApacheMySql
- java apache commons HttpClient傳送get和post請求的學習整理JavaApacheHTTPclient