jieba與nltk結合處理評論(一)

MrZONT發表於2016-02-15

0.前言

作業系統：Windows 64
開發工具：pycharm
全部程式碼以及使用材料下載
下載地址

1.使用jieba對中文進行分詞

1.1 測試文字

本次實驗的評論comment2中的內容為:

使用了一週多才來評價優化過後開機10秒左右執行不卡頓螢幕清晰無漏光巧克力鍵盤觸感非常不錯音質也很好外觀漂亮質量輕巧尤其值得稱讚的是其散熱系統我玩LOL三四個小時完全沒有發燙暫時沒有發現什麼缺點如果有光碟機就更好了值得入手值得入手值得入手～不枉費我浪費了12期免息券加首單減免*的優惠最後換了這臺適合辦公的之前是買的惠普的暗夜精靈玩遊戲超棒的

1.2 分詞程式碼

with open(`./comment2.txt`) as f:
    tmp_line = f.read()
    
    tmp_line_decode = tmp_line.decode(`GBK`)
    jieba_cut = jieba.cut(tmp_line_decode)
    ans = `/`.join(jieba_cut)
    ans = ans.encode(`utf-8`)
    with open(`./comment5_forward_slash.txt`, `w`) as f2:
        f2.write(ans)

程式碼解析：

第4行主要是編碼問題，本機使用的是windows環境，預設編碼是GBK，而python裡面都是用的unicode來處理字元，因此要先從GBK解碼成unicode。
第5行就是結巴的分詞函式，jieba.cut這個函式返回的是一個生成器（Generator）物件，迭代一次之後裡面的內容就消失了。
第6行主要是把分詞過後產生的生成器拼成一個新的字串，並且通過/來進行分割詞，這裡使用/來分割詞語僅僅是為了展示分詞效果，真正要和nltk聯合使用的使用要改成ans=` `.join(jieba_cut),即用空格連線，因為英文預設是通過空格來分詞的，因此nltk也是通過空格來讀取分詞。
第8行就是將拼接好的unicode字串拼接成utf-8，方便python以外的程式識別

1.3 分詞結果

通過這段程式碼分割之後，生成的comment5的內容:

使用/了/一週/多才/來/評價/ /優化/過後/開機/10/秒左右/ /執行/不卡頓/ /螢幕/清晰/無/漏光/ /巧克力/鍵盤/觸感/非常/不錯/ /音質/也/很/好/ /外觀/漂亮/ /質量/輕巧/ /尤其/值得稱讚/的/是/其/散熱/系統/ /我/玩/LOL/三四個/小時/完全/沒有/發燙/ /暫時/沒有/發現/什麼/缺點/ /如果/有/光碟機/就/更好/了/ /值得/入手/ /值得/入手/ /值得/入手/～/ /不/枉費/我/浪費/了/12/期/免息/券加/首單/減免/*/的/優惠/最後/換/了/這臺/適合/辦公/的/ /之前/是/買/的/惠普/的/暗夜精靈/ /玩遊戲/超棒/的

前後對比：

使用了一週多才來評價優化過後開機10秒左右執行不卡頓螢幕清晰無漏光巧克力鍵盤觸感非常不錯音質也很好外觀漂亮質量輕巧尤其值得稱讚的是其散熱系統我玩LOL三四個小時完全沒有發燙暫時沒有發現什麼缺點如果有光碟機就更好了值得入手值得入手值得入手～不枉費我浪費了12期免息券加首單減免*的優惠最後換了這臺適合辦公的之前是買的惠普的暗夜精靈玩遊戲超棒的

使用/了/一週/多才/來/評價/ /優化/過後/開機/10/秒左右/ /執行/不卡頓/ /螢幕/清晰/無/漏光/ /巧克力/鍵盤/觸感/非常/不錯/ /音質/也/很/好/ /外觀/漂亮/ /質量/輕巧/ /尤其/值得稱讚/的/是/其/散熱/系統/ /我/玩/LOL/三四個/小時/完全/沒有/發燙/ /暫時/沒有/發現/什麼/缺點/ /如果/有/光碟機/就/更好/了/ /值得/入手/ /值得/入手/ /值得/入手/～/ /不/枉費/我/浪費/了/12/期/免息/券加/首單/減免/*/的/優惠/最後/換/了/這臺/適合/辦公/的/ /之前/是/買/的/惠普/的/暗夜精靈/ /玩遊戲/超棒/的

我們可以看出，此評論已經被成功分詞。

2.nltk計算評論的TF_IDF值

2.1 測試文字

測試文字分為comment4和comment5，其內容如下：

comment4:

從下單到手只用了 3 個多小時，真快啊，贊一下京東的配送速度，機子收到是原封的，深圳產，沒有陰陽屏和跑馬燈，還不錯，三星的 U ，但不糾結，也沒有感覺有多費電，啟用後買了 ac + ，可以隨意裸機體驗了，整體來說很滿意

comment5:

使用了一週多才來評價優化過後開機 10 秒左右執行不卡頓螢幕清晰無漏光巧克力鍵盤觸感非常不錯音質也很好外觀漂亮質量輕巧尤其值得稱讚的是其散熱系統我玩 LOL 三四個小時完全沒有發燙暫時沒有發現什麼缺點如果有光碟機就更好了值得入手值得入手值得入手～不枉費我浪費了 12 期免息券加首單減免 * 的優惠最後換了這臺適合辦公的之前是買的惠普的暗夜精靈玩遊戲超棒的

注意：以上內容均經過結巴分詞處理，且以空格為間隔進行分詞。

2.3 匯入及計算IF_IDF程式碼

corpus_root = `./`

allText = ``

allText = PlaintextCorpusReader(corpus_root, [`comment4.txt`, `comment5.txt`])

print type(allText)

sinica_text = nltk.Text(allText.words())

mytexts = TextCollection(allText)

print len(mytexts._texts)

print len(mytexts)

the_set = set(sinica_text)
print len(the_set)
for tmp in the_set:
    print tmp, "tf", mytexts.tf(tmp, allText.raw([`comment4.txt`])), "idf", mytexts.idf(tmp), mytexts.tf_idf(tmp, allText.raw([`comment4.txt`]))

程式碼解析

第1行corpus_root是用來指明語料庫的地址，可用相對路徑或者絕對路徑，我這裡用的是相對路徑。
第5行PlaintextCorpusReader(corpus_root, [`comment4.txt`, `comment5.txt`])，其第一個引數是語料庫的路徑，第二個引數指的是該路徑下要加在檔案的檔名，既可以為[`comment4.txt`, `comment5.txt`]的list格式，也可以使用萬用字元載入，如.*.txt
第9行allText.words()，用於返回所載入文件的所有詞彙
第11~15行TextCollection，用於返回一個文件集合，其中len(mytexts._texts)表示裡面包含的文件個數，len(mytexts)表示裡面包含的詞彙個數。
第17行通過set(sinica_text)來去除文件中重複的詞彙，從而形成詞彙表。
第18~20行，通過tf,idf,tf_idf函式來計算每個詞彙在語料庫以及對應文章中的值。其中allText.raw([`comment4.txt`])用於返回對應文章的所有內容，用於計算tf和tf_idf值。

2.4 測試結果(部分)

不卡頓 tf 0.0 idf 0.69314718056 0.0
真快 tf 0.00584795321637 idf 0.69314718056 0.00405349228398
ac tf 0.00584795321637 idf 0.69314718056 0.00405349228398
了 tf 0.0175438596491 idf 0.0 0.0
很 tf 0.00584795321637 idf 0.0 0.0

注:python當中的log函式的底是以自然對數為基礎而nltk呼叫的就是基礎的log函式，因此計算結果可能會和一般的公式計算結果有區別

Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
探索Python資料分析（一）：NLTK庫和文字處理
2016-01-17
Python
RxJava如何結合觀察者與鏈式處理
2019-01-14
RxJava
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
樹形結構的處理——組合模式（一）
2012-09-07
模式
react 學習--結合bootstrap實現評論功能
2016-10-24
Reactboot
全棧 - 17 NLP 使用jieba分詞處理文字
2017-04-01
全棧Jieba分詞
組合模式-統一的處理個別物件與組合物件
2021-01-13
模式物件
PHP 結合 MySQL 千萬級資料處理
2020-07-04
PHPMySql
UI設計培訓之如何將設計理論與實踐相結合
2021-06-15
UI
大資料爭論：批處理與流處理的C位之戰
2018-09-29
大資料
樹形結構的處理——組合模式（五）
2012-09-07
模式
樹形結構的處理——組合模式（四）
2012-09-07
模式
樹形結構的處理——組合模式（三）
2012-09-07
模式
樹形結構的處理——組合模式（二）
2012-09-07
模式
結合 AOP 輕鬆處理事件釋出處理日誌
2020-06-03
事件
Node直出理論與實踐總結
2016-07-04
【自然語言處理篇】--以NLTK為基礎講解自然語⾔處理的原理和基礎知識
2018-07-08
自然語言處理
遊戲論·書評丨“帝國”理論與遊戲帝國：全球資本與電子遊戲
2019-12-30
遊戲
結合RxJS + AngularJS實現非同步處理
2013-11-22
JSAngular非同步
Vuejs進階知識(二十三)【與CSS前處理器結合使用】
2018-12-26
VueJSCSS
入門系列之：Python3 如何使用NLTK處理語言資料
2018-07-24
Python
評論模組開發總結
2018-11-01
網路處理器與安全裝置的結合提高了安全性(轉)
2007-09-19
專案總結 | 九種缺失值處理方法總有一種適合你
2020-07-26
《黑客與畫家》精彩評論
2011-09-06
黑客
當 Vue 處理陣列與處理純物件的方式一樣
2019-03-04
Vue陣列物件
程式集載入與反射（一）：理論篇
2015-06-23
反射
評論功能完成，順便總結下開發評論的經驗
2018-02-11
Golang實時GC的理論與實踐總結
2016-12-03
GolangGC
多對一處理和一對多處理的處理
2020-06-20
效能測試總結(一)---基礎理論篇
2016-05-05
webpack結合reactjs、vuejs專案中圖片處理
2018-06-29
WebReactJSVue
Qt QScatterSeries理論總結
2024-04-02
QT
自然語言處理領域的進展（六、七）講者狀態的分析與生成、結論與展望
2017-04-17
自然語言處理
大資料處理之道書評
2016-12-22
大資料
jieba
2024-05-25
Jieba
Python異常處理回顧與總結
2018-12-21
Python