資料獲取,解析,儲存等知識的學習總結

大樹2發表於2018-01-07

資料獲取,解析,儲存等知識的學習總結

 

作者:csj
更新時間:2017.12.31

email:59888745@qq.com

說明:因內容較多,會不斷更新 xxx學習總結,此部分已更新完;

回主目錄:2017 年學習記錄和總結

 

我們在資料處理,資料分析時,資料的來源有:

1.直接讀取已有的.csv;.txt;.excel檔案;
2.解析json資料;
3.url獲取資料;自己在網上或指定的網站抓取,解析,來獲取資料。


這部分我們主要講解第3點,如何自己從網站抓取資料,解析資料,儲存資料;一般從指定url獲取資料,清洗資料,儲存到csv檔案裡;

主要的知識點有:

1.HTTP請求處理requests:

  定製頭部資訊
  Post表單提交
  Cookie設定與讀取
  超時設定
 

2.XML/Json解析
內建json庫
  dump(s):把dict轉換為json文字
  Load(s):把json文字轉換為dict
HTMLParser:
  DOM:特點
  SAX:特點

3.CSS定位器基礎知識
  定位方式 同過html,css的頁面元素來定位
    元素 element
    類 .class, element.class1.class2
    Id, element
    屬性 [prop=value], element[prop=value]

4.靜態網頁解析
  BS4:find函式搜尋使用
  使用css定位器搜尋,獲取所需要的資料

5.反爬蟲用到的主要方法
  偽裝瀏覽器
  偽裝多個IP
  操作速度不要太快
  使用不同賬號

6.使用REDIS實現佇列服務

7.Selenium

  寫定位資訊,快速和穩定地定位頁面上的元素

相關文章