資料分析接下來將會作為一門通識技能,進入越來越多的不同工作崗位中。掌握資料分析,一方面可以提升自己相應的業務能力,另一方面也可以讓自己建立一種data-driven的視角,去思考各種問題。
本文由科賽網首席資料分析師@保一雄 原創,將主要從「基本技能+動手實踐」兩個角度談談如何入門資料分析。
基本技能
就資料分析學習而言,需要的技能模組有統計基礎+資料庫知識+程式設計能力。
1.統計基礎
理工科的學生在本科階段學習過概率論與數理統計,單從做資料分析的角度已經夠用。其他方面,可以根據需要檢視相關書籍,隨時進行查漏補缺即可。個人推薦《深入淺出統計學》,可以讓統計理論的學習有趣又自然。
2.資料庫知識
關係型資料庫很重要。在學習資料分析的初期甚至很長一段時間,你接觸到的資料都儲存在關係型資料庫中,需要學習SQL語言進行資料查詢。關於SQL語言,強力推薦《SQL必知必會》,整本書通俗易懂,是學習SQL語言的不二之選。
學習資料庫的本質就是在學習一種與資料打交道的邏輯思維與能力。程式設計中的很多思想都和關係型資料庫、SQL相通,比如:SQL中對data進行group by的操作,這個在Excel裡類似於透視表,在Python/R中也有相應的group function去處理資料。甚至在以後的進階過程,你會接觸到分散式資料庫和所對應的no-SQL語句。
3.程式設計能力
Excel。 透視表(Pivot Table)是做資料分析的必備技能。透視表可以幫你迅速彙總資料,看到各型別資料的直觀特徵就像是讓你站在更高的視角看待資料。作為進階,Excel自帶的函式、各種外掛,以及VBA也是很好的工具。
Python。當資料量大到用Excel開啟都要很久或者我們想進步提升能力時,需要學些hardcore技能,即用程式語言做資料分析。這裡主要有R和Python兩大流派。個人推薦Python,一是程式碼簡單易懂,容易上手;二是學習資料多,降低學習成本。推薦《利用Python進行資料分析》,涵蓋了利用Python做資料清洗,資料視覺化及分析的技能點,可以作為一本工具書隨時查閱。
動手實踐
基本技能的學習與掌握是貫穿整個學習過程,期間還需要藉助小專案完成動手實踐,以及跟領域內的前輩多交流,形成學習反饋閉環。
1.選好實踐平臺
一個好的平臺社群將會起到事半功倍的效果。科賽網是聚集資料人才和行業問題的線上社群,在上面你能找到很多開源資料集,啟動你的資料分析之旅。
同時,科賽打造的國內首款線上資料分析協作平臺K-Lab也很強大。如果看到不錯的專案,可以Fork過來在K-Lab上完成自己的分析專案並在社群內展示出來與大家共享。
像前段時間,科賽網發起了DATA CHAT之「尋找NBA懂球帝」的資料分析活動,提供NBA資料集,鼓勵大家用資料分析交流對NBA話題的觀點。這裡分享下自己做的一個專案:「找尋史上總冠軍系列」
2.隨時查漏補缺
實踐過程中,你可能會遇到各種問題,知乎就是一個強大的搜尋引擎,上面有很多大牛寫的資料分析文章;當然,如果英文能力強的話,可以參考StackOverflow。直接搜尋你在寫程式碼做資料分析遇到的各種問題,總有一款答案適合你。
3.隨時覆盤整理
就像是遊戲裡打怪升級,你需要逐個擊破知識盲區,完成滾雪球式累積。比如你發現自己對統計的知識點不是很清楚,可以回過頭去看統計學書籍;你發現資料儲存在分散式系統裡面,便開始學習no-SQL的知識;你發現自己對某一行業比較感興趣,可以通過資料分析進行解讀;你發現自己已經不滿足於利用現成資料作分析,就開始學習使用爬蟲去抓取資料作分析。
小結
學習資料分析就是搭好框架體系,不斷累積知識,不斷hack技能,不斷提升分析水平的過程。哪怕是業餘時間學習,假以時日,亦可成大器。
關於科賽網
科賽網通過對接企業的資料演算法、資料創新問題和資料人才,目前已吸引數萬名專業資料科學家的加入,為企業提供了數千份資料演算法、資料產品方案(客戶包括平安、聯通、華為、攜程、拍拍貸等知名企業),創造了可觀的經濟效益。
重點研發的K-Lab線上資料分析協作平臺是國內首款同類產品,致力於成為資料分析與資料科學人群的首選工具。K-Lab通過整合Python和R語言生態的豐富功能,以及雲端計算的強大算力,提高資料科學家和分析師團隊的學習效率、工作效率與產出價值。