python網路資料採集 - 讀書筆記 - 糾錯與記錄

陽光燦爛豬哥哥發表於2018-03-30

1:page 73: 在windows作業系統中,連線程式碼應為:

    1     conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='YOURPASSWORD', db='mysql')
2     
3     conn.set_charset('utf8')
4     
5     cur = conn.cursor()
6     cur.execute('SET NAMES utf8;')
7     cur.execute('SET CHARACTER SET utf8;')
8     cur.execute('SET character_set_connection=utf8;')
9     cur.execute("USE scraping")

2:Page 97: 其實這裡的關鍵操作並不在OrderedDict這個函式裡,也不在sorted這個函式裡。而是作者更改了ngrams函式,在這個函式裡進行了詞頻統計的功能,然後返回了一個字典物件。但是作者在書中並沒有指出這個變更,而只是貼上了OrderdDict(sorted(......))這個函式。這個函式的作用僅僅是對字典物件進行排序以及去重。希望作者能說清楚,而不交代最重要的變更,這樣非常迷惑讀者,讀者會以為是OrderedDict與sorted實現了詞頻的統計功能,實際上根本不可能。這兩個都只是排序而已。

3: 第8.1節,作者的原始碼下載下來之後,發現並不能實現最後的第105頁的功能,本人試著完成了這段程式碼,可以執行,就是執行的結果跟作者的有一點不一樣:程式碼如下:

enter image description here enter image description here

結果中多出了一個"General Government":

('United States', 10), ('General Government', 4), ('executive department', 4).........

4: Update April 8, 2018 Page 114: len(text6)/len(words) 輸入該命令會提示錯誤,正確的應該是:len(text6)/len(set(text6))

相關文章