文件提取工具 apache/tika

元気田支店长發表於2024-05-07

docker安裝

拉取映象

docker pull apache/tika:latest

執行容器

docker run -itd -p 9998:9998 --name tika apache/tika:latest

使用

命令列模式

curl -s -X PUT -T ./test.txt localhost:9998/tika  --header 'Accept: text/plain'

golang

package main

import (
	"context"
	"fmt"
	"github.com/google/go-tika/tika"
	"os"
)

func main() {

	client := tika.NewClient(nil, "http://127.0.0.1:9998")
	// 解析的檔案的路徑
	filePath := "./test.txt"
	file, err := os.Open(filePath)
	if err != nil {
		fmt.Println("Error opening file:", err)
		return
	}
	// 使用 Tika 提取文字
	text, err := client.ParseWithHeader(context.TODO(), file, map[string][]string{
		"Accept": []string{"text/plain"},
	})
	if err != nil {
		fmt.Println("Error extracting text:", err)
		return
	}
	// 輸出提取的文字
	fmt.Println("Extracted Text:", text)
}

相關文章