關於Apache Tika的學習和使用

weixin_33890499發表於2018-05-18

原文網址 : https://blog.csdn.net/weixin_33890499/article/details/86939872

一. Apache Tika的簡介

Apache Tika 是利用現有的解析類庫，從不同格式的文件中（例如HTML, PDF, Doc)，偵測和提取出後設資料和結構化內容。該專案的目標使用群體主要為搜尋引擎以及其他內容索引和分析工具，程式語言為Java。

其功能包括：
1.偵測文件的型別，字元編碼，語言，等其他現有文件的屬性。
2.提取結構化的文字內容。

Tika的架構：
下圖為Tika的架構以及關鍵零部件的主要設計目標：由一個解析器框架，MIME檢測機制，語言檢測，和一個facade元件聯絡所有元件。外部介面，包括命令列和圖形介面，允許使用者整合到指令碼或者應用程式，並與Tika直接互動。在整個結構中，Tika的體系結構是可擴充套件的，新的解析器可以輕鬆地新增和刪除。

1358587548_5967.JPG

二. Tika的下載及安裝

下載並配置Java JDK
下載Tika的原始碼Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar

11759588-b37a229b2669b851

image

在cmd裡鍵入命令開啟GUI圖形介面

QQ圖片20180521224546.png

image.png

三. 檔案解析

先編寫一個二進位制檔案tika.txt

QQ圖片20180521224615.png

用GUI圖形介面開啟這個檔案，顯示提取的後設資料Metadata

QQ圖片20180521224605.png

再將其解析為其他格式
Formatted Text

QQ圖片20180521224622.png

Plain text

QQ圖片20180521224626.png

Main content為空

QQ圖片20180521224630.png

XML

QQ圖片20180521224635.png

json

QQ圖片20180521224639.png

四. 用命令列使用tika

檢視Tika命令列的基本引數

QQ圖片20180521224642.png

用命令將解析doc檔案

QQ圖片20180521224655.png

相關文章

Apache Tika實戰
2020-08-30
Apache
文件提取工具 apache/tika
2024-05-07
Apache
git學習：關於origin和master
2018-09-30
GitAST
關於ModeAnalytics的學習
2019-02-15
關於HTTP的學習
2020-09-23
HTTP
關於Fragement的學習
2021-09-09
關於SQLMAP的學習
2020-12-15
SQL
關於SCRUM的學習心得
2024-07-14
Scrum
關於學習之道
2019-03-19
Spring學習01--初學者關於AOP和DI的理解
2019-01-06
Spring
關於linux多執行緒fork的理解和學習
2022-05-14
Linux執行緒
【機器學習基礎】關於深度學習的Tips
2021-11-12
機器學習深度學習
關於http(自己的學習筆記)
2018-12-04
HTTP筆記
Myth 關於Git的學習筆記
2021-09-09
Git筆記
關於學習心態的調整
2020-12-05
關於法學考研（刑法），我的學習方法
2020-12-22
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
關於結構體型別的學習
2019-07-25
結構體型別
關於資料結構的學習心得
2024-07-07
資料結構
關於MySQL8的WITH查詢學習
2021-08-07
MySql
Jetpack Compose學習(6)——關於Modifier的妙用
2021-10-03
Jetpack
關於學習的一些建議
2023-01-18
關於我在學習Swoole的痛點
2021-04-23
關於深度學習的一些技巧
2020-12-07
深度學習
關於機器學習和AI的區別最經典的解釋
2018-11-27
機器學習AI
pl/sql developer中關於TIMESTAMP顯示格式的疑問和學習
2019-03-31
SQLDeveloper
基於Spring Integration和Apache Camel的SEDA
2022-11-28
SpringApache
關於社會機器學習
2020-09-24
機器學習
關於學習Web前端所需要的學習資料（免費送）
2018-07-18
Web前端
Apache Ignite 學習筆記(6): Ignite中Entry Processor使用
2019-07-30
Apache筆記
Apache Hadoop Yarn 學習（二）
2020-12-28
ApacheHadoopYarn
關於 isset 和邏輯運算子的使用
2020-06-14
Flutter之FutureBuilder的學習和使用
2018-11-25
FlutterRebuild
golang中關於死鎖的思考與學習
2024-09-09
Golang
關於深度學習的一些淺見
2018-04-16
深度學習
從《守望先鋒》學習關於ECS的概述
2024-06-07
關於XAMPP中Apache和Mysql因埠占用無法啟動的問題
2020-12-14
ApacheMySql
java apache commons HttpClient傳送get和post請求的學習整理
2018-03-02
JavaApacheHTTPclient