python網路資料採集 - 讀書筆記 - 糾錯與記錄
1:page 73: 在windows作業系統中,連線程式碼應為:
1 conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='YOURPASSWORD', db='mysql')
2
3 conn.set_charset('utf8')
4
5 cur = conn.cursor()
6 cur.execute('SET NAMES utf8;')
7 cur.execute('SET CHARACTER SET utf8;')
8 cur.execute('SET character_set_connection=utf8;')
9 cur.execute("USE scraping")
2:Page 97: 其實這裡的關鍵操作並不在OrderedDict這個函式裡,也不在sorted這個函式裡。而是作者更改了ngrams函式,在這個函式裡進行了詞頻統計的功能,然後返回了一個字典物件。但是作者在書中並沒有指出這個變更,而只是貼上了OrderdDict(sorted(......))這個函式。這個函式的作用僅僅是對字典物件進行排序以及去重。希望作者能說清楚,而不交代最重要的變更,這樣非常迷惑讀者,讀者會以為是OrderedDict與sorted實現了詞頻的統計功能,實際上根本不可能。這兩個都只是排序而已。
3: 第8.1節,作者的原始碼下載下來之後,發現並不能實現最後的第105頁的功能,本人試著完成了這段程式碼,可以執行,就是執行的結果跟作者的有一點不一樣:程式碼如下:
結果中多出了一個"General Government":
('United States', 10), ('General Government', 4), ('executive department', 4).........
4: Update April 8, 2018 Page 114: len(text6)/len(words) 輸入該命令會提示錯誤,正確的應該是:len(text6)/len(set(text6))
相關文章
- 《Python網路資料採集》筆記一Python筆記
- 《網際網路信貸風險與大資料》讀書筆記(二)大資料筆記
- 《網際網路信貸風險與大資料》讀書筆記(一)大資料筆記
- 《網際網路信貸風險與大資料》讀書筆記(五)大資料筆記
- 《網際網路信貸風險與大資料》讀書筆記(六)大資料筆記
- 《網際網路信貸風險與大資料》讀書筆記(三)大資料筆記
- 《網際網路信貸風險與大資料》讀書筆記(四)大資料筆記
- 《Python資料處理》讀書筆記Python筆記
- 讀書筆記摘錄:筆記
- 《讀書與做人》讀書筆記筆記
- 《資料探勘概念與技術》讀書筆記筆記
- 《資料資產管理核心技術與應用》讀書筆記-第二章:後設資料的採集與儲存筆記
- O'Reilly精品圖書推薦:Python網路資料採集Python
- 《計算機網路》讀書筆記(二)計算機網路筆記
- 《網路和多媒體》讀書筆記筆記
- Python網路資料採集(爬蟲)Python爬蟲
- Effective Java讀書筆記(目錄)Java筆記
- 《圖解TCP/IP》讀書筆記三:資料鏈路圖解TCP筆記
- 《用資料講故事》讀書筆記筆記
- 《python專案開發案例集錦》讀書筆記Python筆記
- 效能與RAC 讀書筆記筆記
- fluent python 讀書筆記 1Python筆記
- 《圖解HTTP》--讀書筆記(目錄)圖解HTTP筆記
- "軟體隨想錄" 讀書筆記筆記
- 《Python資料分析與挖掘實戰》-- 讀書筆記(2)-- 2019Python筆記
- 讀書筆記...筆記
- 讀書筆記筆記
- 《網路是怎樣連線的》讀書筆記筆記
- 《圖解TCP/IP》讀書筆記九:網路安全圖解TCP筆記
- 網路是怎樣連線的(讀書筆記)筆記
- 《現代通訊網路技術》讀書筆記筆記
- 資料結構與演算法分析 讀書筆記(樹)資料結構演算法筆記
- 《C缺陷與陷阱》讀書筆記筆記
- 黑客與畫家讀書筆記黑客筆記
- C陷阱與缺陷--讀書筆記筆記
- 《C與指標》讀書筆記指標筆記
- Python網路資料採集之審查元素Python
- 《Python 簡明教程》讀書筆記系列四 —— 資料結構Python筆記資料結構