大資料分析師,比資料分析師厲害在哪

wade1203發表於2019-03-20

640?wx_fmt=jpeg

最近看到個段子:

你是個資料分析師,平時主要都用 Python 的 Pandas 處理分析資料,一天,上司甩來一個檔案讓你清洗好順便提取些資料,下班前給到他。
你一看檔案有幾十個 GB 大,有點傻眼,不過還是熟練地開啟 Python,準備把資料匯入 Pandas 中,結果發現當機了,排氣扇嗡嗡地狂轉,半天都沒有反應,你不甘心,重啟電腦嘗試了一遍依然沒用,折騰了好一陣子,也快到了下班時間,你開始手腳冒汗,擔心完不成任務。

然而下班時間還是到了,上司悠悠然的聲音從背後飄來:弄好了麼?
你吱吱嗚嗚地,不知怎麼回答,嗯,額,馬上就好。
上司:那現在發給我啊?
你覺得無法再糊弄過去了,乾脆交待吧,剩下的聽天由命:檔案太大,我用 Python 處理不了。
上司:嗯?就是說還沒開始麼?
你:是,是的。。。
時間彷彿凝固了幾秒,空氣也不流動了。

上司突然笑道:其實,是專門甩給你這麼大個資料的。
你:啊?為啥?
上司:想讓你知道,別一天到晚拿到資料就上 Python  搞,Pandas 處理幾 GB 以內的小資料還搞地定,體驗不到效能差異,但是像今天這麼大的資料,Pandas 很難處理,記憶體吃光都不夠用,電腦卡死,你就只能乾瞪眼。 
你:那怎麼處理這些大資料?
上司不緊不慢道:其實這點資料不算大,頂多算 Large Data,要上到 Big Data 起碼要到 TB 級別。由於演算法和本地記憶體的限制,Pandas 在處理 Big Data 方面有自己的侷限性。所以這麼大的資料一般都用 Hadoop 或者 Spark 等工具來處理。

你:Hadoop 或者 Spark 是什麼?
上司:去學點大資料分析吧。

上面的段子你可能覺得只是在說笑,大資料離你很遠。其實,大資料早都滲透到你生活中了,你上網購物,下次就會根據你的購物習慣給你推薦新產品;你打滴滴,滴滴會迅速匹配到離你最近的司機。

現在有一個很熱門的職業叫做「資料科學家」,薪資比普通資料分析師高地多,這說的其實就是大資料分析師。在美國,與大資料相關的職位統稱為「資料科學家」;而在國內,與大資料相關的崗位則細分得多,按照級別主要分為資料分析、資料探勘、資料工程師、資料架構師這幾類。

隨著大資料的運用,大資料這個行業可以說是「前景可期」,行業人才缺口也還很大,很多高校都陸續開設這方面的專業,這些崗位也都會成為未來最吃香的職業,可能一些人一聽到「吃香」就想去學,因為錢多啊。作為一過來人想說的是,在你決定學習一門知識之前,首先要確定自己不是從眾心理,你要遵從你內心的興趣愛好,不要因為什麼工資高就去學習什麼。

也許你並不 Care 什麼前景行業、什麼高薪福利,你很滿足當下所在的工作崗位、所會的技能,你覺得人生該順其自然,不要給自己施加太多壓力,去盲目追隨所謂的財富自由、亮眼 Title,這一輩子平淡安穩地過下去就夠了,王小波不說過這麼一句話麼:「我活在世上,無非想要明白些道理,遇見些有趣的人,做一些有趣的事。倘能如我所願,我的一生就算成功。」

我也喜歡這句話,但我理解的可能和你不太一樣。其實這個「有趣」並不是一件容易做到的事,你沒有一定的經歷,你根本不能理解哪些是真正好玩、有趣的人和事,就比如曾經一段很火的文案:

你寫 PPT 時,阿拉斯加的鱈魚正躍出水面
你看報表時,梅里雪山的金絲猴剛好爬上樹尖
你擠進地鐵時,西藏的山鷹一直盤旋雲端
你在會議中吵架時,尼泊爾的揹包客一起端起酒杯坐在火堆旁

所以最好是努力拼搏、銳意進取,每天都進步一點,才可能有這樣的機會去體驗。

如果你一直或者現在對「大資料分析師」很感興趣,但一直不知如何去學它,我願意和你分享一下入門大資料分析的路徑。

通常來說你需要有這幾個方面的基礎:

  • 數學和統計知識

    暫時不用太多,大學裡學的線性代數、概率統計、高數這些課程就夠,如果你忘了,再回去複習複習就好。

  • 學習程式設計

    這一點我相信你是會的, 如果你會的是 Python,那再好不過。

  • 資料庫知識

    只要跟資料打交道就離不開資料庫,SQL 語言是每個資料分析師必不可少的一項硬技能,當然,學習大資料 SQL 也是必經之路。

  • Linux 系統的基本操作

    Linux 系統的基本操作是大資料不可分割的一部分,大資料的元件都是在這個系統中跑的。

  • Hadoop 架構基礎

    Hadoop 是學大資料的基礎,從而構建 Hadoop 叢集,再建立 spark 開發環境,完成大資料環境的配置搭建。

  • 機器學習

    要會用一些機器學習演算法,比如常見的十大演算法,機器學習能更好發揮出大資料的優勢。

如果你覺得還是不太清楚,那可以用一張圖來總結大資料分析需要會的技能:

640?wx_fmt=png

文末「新增小助理 」得到高清大圖

到這兒你可能會感嘆,大資料分析師僅僅比資料分析師多了個「大」字,要學習的東西就要多這麼多。是的,不然大資料分析師的薪資會高麼多。不過我覺得是值得的,趁年輕多學點技能傍身,不斷挑戰自己,未來你會感謝現在拼命的自己。

鑑於此,分享一場公開課《大資料分析師的進階之路》,由12年行業經驗累積的大資料分析師老楊親自講授,更會有資料分析專案長達80分鐘的動手實踐的公開課。原價399,限時免費直播,僅限前500名!(隨堂附送課件原始碼)


楊國俊


任中國網際網路開發者協會理事。

老楊進入IT行業12年, 曾架構首都機場物流系統,長山電廠的ERP系統等多個國家級的大型專案等。在機器學習、深度學習、神經網路、資料探勘演算法實現、產品運營分析、推薦系統、資料視覺化等技術領域均有累積,涉獵廣泛。




公開課時間

3月21日(本週四)20:00

直播


640?wx_fmt=jpeg

優惠名額有限,長按下方二維碼,馬上去搶!

640?wx_fmt=png

大家新增之後,一定要提前先跟小助理鎖定聽課名額,人數較多,先到先得。

Ps:公開課由"開課吧"大資料分析師親自分享,同時IT技術大牛廖雪峰聯手世界級資料科學家巴川加盟開課吧,並耗時半年研發了精品付費課程-《大資料分析工程師》面向程式設計小白轉行資料分析師,或者對現在的自己不滿意想要提升大資料分析能力的人群,課程結合行業人才畫像,行業專家設計課程體系,培養複合型專業資料分析人才。

相關文章