資料獲取,解析,儲存等知識的學習總結
作者:csj
更新時間:2017.12.31
email:59888745@qq.com
說明:因內容較多,會不斷更新 xxx學習總結,此部分已更新完;
回主目錄:2017 年學習記錄和總結
我們在資料處理,資料分析時,資料的來源有:
1.直接讀取已有的.csv;.txt;.excel檔案;
2.解析json資料;
3.url獲取資料;自己在網上或指定的網站抓取,解析,來獲取資料。
這部分我們主要講解第3點,如何自己從網站抓取資料,解析資料,儲存資料;一般從指定url獲取資料,清洗資料,儲存到csv檔案裡;
主要的知識點有:
1.HTTP請求處理requests:
定製頭部資訊
Post表單提交
Cookie設定與讀取
超時設定
2.XML/Json解析
內建json庫
dump(s):把dict轉換為json文字
Load(s):把json文字轉換為dict
HTMLParser:
DOM:特點
SAX:特點
3.CSS定位器基礎知識
定位方式 同過html,css的頁面元素來定位
元素 element
類 .class, element.class1.class2
Id, element
屬性 [prop=value], element[prop=value]
4.靜態網頁解析
BS4:find函式搜尋使用
使用css定位器搜尋,獲取所需要的資料
5.反爬蟲用到的主要方法
偽裝瀏覽器
偽裝多個IP
操作速度不要太快
使用不同賬號
6.使用REDIS實現佇列服務
7.Selenium
寫定位資訊,快速和穩定地定位頁面上的元素