這是全棧資料工程師養成攻略系列教程的第二期:2 序言 資料工程和程式語言。
現在大資料的概念火得不行,太多的人言必稱大資料,所以我這裡就不談大資料,而是介紹如何去做一些個人能hold住的小而美的資料工程和資料應用。
如何玩轉資料
玩轉資料基本包括以下四個流程:
- 第一是採集,我們的資料從何而來?要麼是別人準備好提供給我們,要麼就需要我們自己去採集,或者從網際網路上抓取;
- 第二,我們需要把採集到的資料儲存下來。可以儲存到靜態檔案,例如txt、csv、json等,也可以儲存到一些通用而且成熟的資料庫裡,例如mysql、postgres等;
- 第三,對儲存的資料進行清洗和分析。一方面是做一些統計彙總的工作,並得出一些結論;另一方面是用機器學習的方法訓練一些模型,並且用來解決實際問題;
- 最後,用資料視覺化的方法將所得的結論和模型進行展示,畢竟一圖勝千言,資料視覺化可以幫助我們更好地展示從資料中挖掘出的價值。
關於程式語言
很多人都在爭論,到底哪種程式語言最好;也有很多人在困惑,要做資料分析的話,應該從哪種程式語言學起。其實在我看來,只學習一門語言可能遠遠不夠,而是各個方面都應當有所涉足,但是同時又有最擅長和習慣使用的一兩門語言。
C++和Java這兩門語言你需要至少熟悉一門,從而瞭解語法的基本內容和麵向物件的程式設計思想。熟悉的意思是不用完全掌握,只要在要用的時候,查一查,能夠快速回想起來相關內容即可。
Python是一門簡單好用而且功能強大的語言,也是我使用最多、最為熟悉的一門語言,開玩笑地說,Python大法好,除了炒菜別的Python都可以幹。
R是一門統計分析語言,近幾年它的學習門檻和成本都在不斷降低,可以用來做一些專業的分析和繪製一些漂亮的圖形。
然後就是和Web網站開發相關的一些語言,例如後端的PHP、NodeJS,前端的HTML、CSS和JavaScript等。
就我個人而言,比較習慣於用Python採集資料並且寫入到檔案或資料庫,做分析的時候結合使用Python和R。至於視覺化,則是用R繪製一些靜態圖形,使用Web網站做一些互動視覺化。
在接下來的教程中,我會以Python為主,為大家介紹如何進行資料的採集、儲存、分析和視覺化,帶大家去做一些簡單而有意思的事情。
視訊連結:資料工程和程式語言