資料分析學習方向(二)

weixin_33724059發表於2018-12-27
13825820-d262601e5622da40.jpg

我們在上一篇文章中簡單地介紹了資料分析的知識,資料分析知識主要分為5個模組,分別是資料獲取、資料儲存與提取、資料預處理、資料分析、資料視覺化。不同模組的內容難易也是不一樣的,下面我們就開始給大家詳細講解一下資料分析其他方面的知識。

首先給大家說說資料獲取的知識,一般來說,資料獲取的方式有兩種,第一種就是公開資料,第二種就是通過Python爬蟲獲取資料。而外部資料的獲取方式也有很多,比如獲取外部的公開資料集,一些科研機構、企業、政府會開放一些資料,這就需要大家到特定的網站去下載這些資料。這些資料集通常比較完善、質量相對較高。當然我們也可以通過爬蟲來獲取資訊。在學習爬蟲之前需要我們先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、迴圈、函式等等知識,當然我們還需要學會如何用 Python 庫實現網頁爬蟲。

然後我們給大家講講資料存取。要想做好資料存取需要學習SQL語言。一般來說,在應對萬以內的資料的時候,Excel對於一般的分析沒有問題,一旦資料量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來儲存資料,如果你是一個分析師,也至少要懂得SQL的操作,能夠查詢、提取公司的資料。SQL作為最經典的資料庫工具,為海量資料的儲存與管理提供可能,並且使資料的提取的效率大大提升。一般來說企業資料庫裡的資料一定是大而繁複的,如果我們提取需要的部分資料使用Excel是不行的,但是SQL可以通過簡單的命令幫我們完成這些工作。這就需要我們記住資料庫的增、刪、查、改的具體操作。這些是資料庫最基本的操作。

而資料的分組聚合、如何建立多個表之間的聯絡是我們需要注意的事情。這個部分是SQL的進階操作,多個表之間的關聯,在我們處理多維度、多個資料集的時候非常有用,這也讓你可以去處理更復雜的資料。

資料分析工作中的資料提取以及資料獲取是十分重要的步驟,這就需要我們重視起這兩個工作,這樣才能夠為後面的資料分析工作做好基礎工作,希望這篇文章能夠給大家帶來幫助,由於篇幅原因小編就給大家介紹到這裡了,我們會在下一篇文章中繼續給大家介紹更多的知識。最後感謝大家花時間讀完我們的文章。

相關文章