python網路資料採集 - 讀書筆記 - 糾錯與記錄
1:page 73: 在windows作業系統中,連線程式碼應為:
1 conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='YOURPASSWORD', db='mysql')
2
3 conn.set_charset('utf8')
4
5 cur = conn.cursor()
6 cur.execute('SET NAMES utf8;')
7 cur.execute('SET CHARACTER SET utf8;')
8 cur.execute('SET character_set_connection=utf8;')
9 cur.execute("USE scraping")
2:Page 97: 其實這裡的關鍵操作並不在OrderedDict這個函式裡,也不在sorted這個函式裡。而是作者更改了ngrams函式,在這個函式裡進行了詞頻統計的功能,然後返回了一個字典物件。但是作者在書中並沒有指出這個變更,而只是貼上了OrderdDict(sorted(......))這個函式。這個函式的作用僅僅是對字典物件進行排序以及去重。希望作者能說清楚,而不交代最重要的變更,這樣非常迷惑讀者,讀者會以為是OrderedDict與sorted實現了詞頻的統計功能,實際上根本不可能。這兩個都只是排序而已。
3: 第8.1節,作者的原始碼下載下來之後,發現並不能實現最後的第105頁的功能,本人試著完成了這段程式碼,可以執行,就是執行的結果跟作者的有一點不一樣:程式碼如下:
結果中多出了一個"General Government":
('United States', 10), ('General Government', 4), ('executive department', 4).........
4: Update April 8, 2018 Page 114: len(text6)/len(words) 輸入該命令會提示錯誤,正確的應該是:len(text6)/len(set(text6))
相關文章
- 《Python資料分析與挖掘實戰》-- 讀書筆記(2)-- 2019Python筆記
- 《讀書與做人》讀書筆記筆記
- 《資料資產管理核心技術與應用》讀書筆記-第二章:後設資料的採集與儲存筆記
- 《python專案開發案例集錦》讀書筆記Python筆記
- 《Python 簡明教程》讀書筆記系列四 —— 資料結構Python筆記資料結構
- 《網路是怎樣連線的》讀書筆記筆記
- 讀書筆記筆記
- 《C缺陷與陷阱》讀書筆記筆記
- 黑客與畫家讀書筆記黑客筆記
- 流暢的python讀書筆記-第一章Python 資料模型Python筆記模型
- Python爬蟲初學二(網路資料採集)Python爬蟲
- 讀書筆記5-資料儲存篇筆記
- 讀書筆記之《網路是怎樣連線的》筆記
- 《網路是怎樣連線的》讀書筆記一筆記
- 筆試記錄集筆試
- 讀書筆記-資訊收集1筆記
- postgres 讀書筆記筆記
- 讀書筆記2筆記
- 讀書筆記3筆記
- Cucumber讀書筆記筆記
- webpackDemo讀書筆記Web筆記
- Vue讀書筆記Vue筆記
- 散文讀書筆記筆記
- HTTP 讀書筆記HTTP筆記
- 《大型網際網路企業安全架構》讀書筆記架構筆記
- 《802.11無線網路權威指南-網路概論》-- 讀書筆記2筆記
- 記錄一次專案資料採集分析-NEWC資料洩漏
- JVM資料區域與垃圾收集<深入理解JVM讀書筆記>JVM筆記
- 【讀書筆記】《PostgreSQL指南-內幕探索》-1.資料庫集簇、資料庫和資料表筆記SQL資料庫
- JVM讀書筆記之垃圾收集與記憶體分配JVM筆記記憶體
- Lua設計與實現--讀書筆記筆記
- 《Kafka入門與實踐》讀書筆記Kafka筆記
- 《論語》讀書筆記筆記
- 《重構》讀書筆記筆記
- PMBook讀書筆記(一)筆記
- js高程讀書筆記JS筆記
- 資料結構與演算法讀書筆記 - 004 -C++遞迴資料結構演算法筆記C++遞迴
- python網路爬蟲筆記(一)Python爬蟲筆記