python網路資料採集 - 讀書筆記 - 糾錯與記錄

陽光燦爛豬哥哥發表於2018-03-30

原文網址 : http://www.ituring.com.cn/article/504566

1：page 73: 在windows作業系統中，連線程式碼應為:

    1     conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='YOURPASSWORD', db='mysql')
2     
3     conn.set_charset('utf8')
4     
5     cur = conn.cursor()
6     cur.execute('SET NAMES utf8;')
7     cur.execute('SET CHARACTER SET utf8;')
8     cur.execute('SET character_set_connection=utf8;')
9     cur.execute("USE scraping")

2：Page 97: 其實這裡的關鍵操作並不在OrderedDict這個函式裡，也不在sorted這個函式裡。而是作者更改了ngrams函式，在這個函式裡進行了詞頻統計的功能，然後返回了一個字典物件。但是作者在書中並沒有指出這個變更，而只是貼上了OrderdDict(sorted(......))這個函式。這個函式的作用僅僅是對字典物件進行排序以及去重。希望作者能說清楚，而不交代最重要的變更，這樣非常迷惑讀者，讀者會以為是OrderedDict與sorted實現了詞頻的統計功能，實際上根本不可能。這兩個都只是排序而已。

3: 第8.1節，作者的原始碼下載下來之後，發現並不能實現最後的第105頁的功能，本人試著完成了這段程式碼，可以執行，就是執行的結果跟作者的有一點不一樣:程式碼如下:

enter image description here

結果中多出了一個"General Government":

('United States', 10), ('General Government', 4), ('executive department', 4).........

4： Update April 8, 2018 Page 114: len(text6)/len(words) 輸入該命令會提示錯誤，正確的應該是:len(text6)/len(set(text6))

《Python資料分析與挖掘實戰》-- 讀書筆記（2）-- 2019
2019-03-02
Python筆記
《讀書與做人》讀書筆記
2024-06-14
筆記
《資料資產管理核心技術與應用》讀書筆記-第二章：後設資料的採集與儲存
2024-08-06
筆記
《python專案開發案例集錦》讀書筆記
2020-03-20
Python筆記
《Python 簡明教程》讀書筆記系列四 —— 資料結構
2020-04-19
Python筆記資料結構
《網路是怎樣連線的》讀書筆記
2020-10-23
筆記
讀書筆記
2024-06-04
筆記
黑客與畫家讀書筆記
2018-05-24
黑客筆記
《C缺陷與陷阱》讀書筆記
2019-05-14
筆記
流暢的python讀書筆記-第一章Python 資料模型
2019-02-16
Python筆記模型
Python爬蟲初學二（網路資料採集）
2020-05-03
Python爬蟲
讀書筆記5-資料儲存篇
2019-03-01
筆記
《網路是怎樣連線的》讀書筆記一
2019-07-17
筆記
讀書筆記之《網路是怎樣連線的》
2022-06-19
筆記
筆試記錄集
2018-04-22
筆試
讀書筆記-資訊收集1
2018-08-23
筆記
webpackDemo讀書筆記
2018-07-30
Web筆記
Vue讀書筆記
2018-05-02
Vue筆記
散文讀書筆記
2018-08-26
筆記
Cucumber讀書筆記
2020-04-06
筆記
HTTP 讀書筆記
2018-03-05
HTTP筆記
postgres 讀書筆記
2024-11-19
筆記
讀書筆記2
2024-10-30
筆記
讀書筆記3
2024-06-19
筆記
《802.11無線網路權威指南-網路概論》-- 讀書筆記2
2024-08-05
筆記
《大型網際網路企業安全架構》讀書筆記
2020-07-13
架構筆記
記錄一次專案資料採集分析-NEWC資料洩漏
2023-06-30
JVM資料區域與垃圾收集<深入理解JVM讀書筆記>
2019-08-12
JVM筆記
【讀書筆記】《PostgreSQL指南-內幕探索》-1.資料庫集簇、資料庫和資料表
2021-01-10
筆記SQL資料庫
JVM讀書筆記之垃圾收集與記憶體分配
2018-09-17
JVM筆記記憶體
《Kafka入門與實踐》讀書筆記
2018-08-15
Kafka筆記
Lua設計與實現--讀書筆記
2020-09-28
筆記
js高程讀書筆記
2018-04-09
JS筆記
《論語》讀書筆記
2024-07-10
筆記
《重構》讀書筆記
2021-03-06
筆記
PMBook讀書筆記（一）
2020-12-07
筆記
資料結構與演算法讀書筆記 - 004 -C++遞迴
2020-12-26
資料結構演算法筆記C++遞迴
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記

python網路資料採集 - 讀書筆記 - 糾錯與記錄

('United States', 10), ('General Government', 4), ('executive department', 4).........

相關文章