大資料分析師,比資料分析師厲害在哪
最近看到個段子:
你是個資料分析師,平時主要都用 Python 的 Pandas 處理分析資料,一天,上司甩來一個檔案讓你清洗好順便提取些資料,下班前給到他。
你一看檔案有幾十個 GB 大,有點傻眼,不過還是熟練地開啟 Python,準備把資料匯入 Pandas 中,結果發現當機了,排氣扇嗡嗡地狂轉,半天都沒有反應,你不甘心,重啟電腦嘗試了一遍依然沒用,折騰了好一陣子,也快到了下班時間,你開始手腳冒汗,擔心完不成任務。然而下班時間還是到了,上司悠悠然的聲音從背後飄來:弄好了麼?
你吱吱嗚嗚地,不知怎麼回答,嗯,額,馬上就好。
上司:那現在發給我啊?
你覺得無法再糊弄過去了,乾脆交待吧,剩下的聽天由命:檔案太大,我用 Python 處理不了。
上司:嗯?就是說還沒開始麼?
你:是,是的。。。
時間彷彿凝固了幾秒,空氣也不流動了。上司突然笑道:其實,是專門甩給你這麼大個資料的。
你:啊?為啥?
上司:想讓你知道,別一天到晚拿到資料就上 Python 搞,Pandas 處理幾 GB 以內的小資料還搞地定,體驗不到效能差異,但是像今天這麼大的資料,Pandas 很難處理,記憶體吃光都不夠用,電腦卡死,你就只能乾瞪眼。
你:那怎麼處理這些大資料?
上司不緊不慢道:其實這點資料不算大,頂多算 Large Data,要上到 Big Data 起碼要到 TB 級別。由於演算法和本地記憶體的限制,Pandas 在處理 Big Data 方面有自己的侷限性。所以這麼大的資料一般都用 Hadoop 或者 Spark 等工具來處理。你:Hadoop 或者 Spark 是什麼?
上司:去學點大資料分析吧。
上面的段子你可能覺得只是在說笑,大資料離你很遠。其實,大資料早都滲透到你生活中了,你上網購物,下次就會根據你的購物習慣給你推薦新產品;你打滴滴,滴滴會迅速匹配到離你最近的司機。
現在有一個很熱門的職業叫做「資料科學家」,薪資比普通資料分析師高地多,這說的其實就是大資料分析師。在美國,與大資料相關的職位統稱為「資料科學家」;而在國內,與大資料相關的崗位則細分得多,按照級別主要分為資料分析、資料探勘、資料工程師、資料架構師這幾類。
隨著大資料的運用,大資料這個行業可以說是「前景可期」,行業人才缺口也還很大,很多高校都陸續開設這方面的專業,這些崗位也都會成為未來最吃香的職業,可能一些人一聽到「吃香」就想去學,因為錢多啊。作為一過來人想說的是,在你決定學習一門知識之前,首先要確定自己不是從眾心理,你要遵從你內心的興趣愛好,不要因為什麼工資高就去學習什麼。
也許你並不 Care 什麼前景行業、什麼高薪福利,你很滿足當下所在的工作崗位、所會的技能,你覺得人生該順其自然,不要給自己施加太多壓力,去盲目追隨所謂的財富自由、亮眼 Title,這一輩子平淡安穩地過下去就夠了,王小波不說過這麼一句話麼:「我活在世上,無非想要明白些道理,遇見些有趣的人,做一些有趣的事。倘能如我所願,我的一生就算成功。」
我也喜歡這句話,但我理解的可能和你不太一樣。其實這個「有趣」並不是一件容易做到的事,你沒有一定的經歷,你根本不能理解哪些是真正好玩、有趣的人和事,就比如曾經一段很火的文案:
你寫 PPT 時,阿拉斯加的鱈魚正躍出水面
你看報表時,梅里雪山的金絲猴剛好爬上樹尖
你擠進地鐵時,西藏的山鷹一直盤旋雲端
你在會議中吵架時,尼泊爾的揹包客一起端起酒杯坐在火堆旁
所以最好是努力拼搏、銳意進取,每天都進步一點,才可能有這樣的機會去體驗。
如果你一直或者現在對「大資料分析師」很感興趣,但一直不知如何去學它,我願意和你分享一下入門大資料分析的路徑。
通常來說你需要有這幾個方面的基礎:
數學和統計知識
暫時不用太多,大學裡學的線性代數、概率統計、高數這些課程就夠,如果你忘了,再回去複習複習就好。
學習程式設計
這一點我相信你是會的, 如果你會的是 Python,那再好不過。
資料庫知識
只要跟資料打交道就離不開資料庫,SQL 語言是每個資料分析師必不可少的一項硬技能,當然,學習大資料 SQL 也是必經之路。
Linux 系統的基本操作
Linux 系統的基本操作是大資料不可分割的一部分,大資料的元件都是在這個系統中跑的。
Hadoop 架構基礎
Hadoop 是學大資料的基礎,從而構建 Hadoop 叢集,再建立 spark 開發環境,完成大資料環境的配置搭建。
機器學習
要會用一些機器學習演算法,比如常見的十大演算法,機器學習能更好發揮出大資料的優勢。
如果你覺得還是不太清楚,那可以用一張圖來總結大資料分析需要會的技能:
(文末「新增小助理 」得到高清大圖)
到這兒你可能會感嘆,大資料分析師僅僅比資料分析師多了個「大」字,要學習的東西就要多這麼多。是的,不然大資料分析師的薪資會高麼多。不過我覺得是值得的,趁年輕多學點技能傍身,不斷挑戰自己,未來你會感謝現在拼命的自己。
鑑於此,分享一場公開課《大資料分析師的進階之路》,由12年行業經驗累積的大資料分析師老楊親自講授,更會有資料分析專案長達80分鐘的動手實踐的公開課。原價399,限時免費直播,僅限前500名!(隨堂附送課件原始碼)
楊國俊
任中國網際網路開發者協會理事。
老楊進入IT行業12年, 曾架構首都機場物流系統,長山電廠的ERP系統等多個國家級的大型專案等。在機器學習、深度學習、神經網路、資料探勘演算法實現、產品運營分析、推薦系統、資料視覺化等技術領域均有累積,涉獵廣泛。
3月21日(本週四)20:00
直播
優惠名額有限,長按下方二維碼,馬上去搶!
大家新增之後,一定要提前先跟小助理鎖定聽課名額,人數較多,先到先得。
Ps:公開課由"開課吧"大資料分析師親自分享,同時IT技術大牛廖雪峰聯手世界級資料科學家巴川加盟開課吧,並耗時半年研發了精品付費課程-《大資料分析工程師》,面向程式設計小白轉行資料分析師,或者對現在的自己不滿意想要提升大資料分析能力的人群,課程結合行業人才畫像,行業專家設計課程體系,培養複合型專業資料分析人才。
相關文章
- 資料分析師招聘分析2.0
- 普通人懂點資料分析,可以有多厲害?
- 資料架構師、資料分析師、資料工程師,有啥不同,哪個工資高?架構工程師
- 大資料分析師要學什麼專業?大資料
- 如何快速成為資料分析師?
- 2018 資料分析師成長指南
- 資料分析師之SQL入門SQL
- 大資料分析存在哪些困難大資料
- 5大資料經典模型詳解——資料分析師必須掌握大資料模型
- 資料分析師如何應對資料庫取數後的離線分析資料庫
- 資料分析師:因為稀缺,所以高薪高薪
- 如何像資料分析師一樣思考?
- 資料分析師必備技能都有哪些?
- 資料分析師、資料科學家、大資料專家三個職位的區別資料科學大資料
- 一文了解資料分析師與商業分析師的區別(二)
- 一文了解資料分析師與商業分析師的區別(一)
- 資料分析師與資料科學家有什麼不同? - Reddit資料科學
- 比拼 Kafka, 大資料分析新秀 Pulsar 到底好在哪Kafka大資料
- 資料分析師之如何學好Python(四)Python
- QuickBI助你成為分析師-資料建模(一)UI
- 資料分析師到底是幹啥的?
- AB test | 資料分析師面試必知 !面試
- 7000字長文 | 資料分析師能力模型模型
- Python 資料分析實戰 | 網際網路寒冬下,資料分析師還吃香嗎?Python
- 快收藏!資料分析師不能不知道的三種資料分析方法
- 為什麼大資料工程師比Java程式設計師工資高大資料工程師Java程式設計師
- 中國文化厲害在哪?
- CDA資料分析師 - SQL資料庫基礎 查詢&連線SQL資料庫
- 資料分析師如何寫一篇“有用”的分析報告
- 影響資料分析師薪資水平的因素有哪些?
- 大資料安全分析大資料
- 深夜,學妹說她想做Python資料分析師Python
- 分析師解讀記憶體資料庫MemSQLSP記憶體資料庫SQL
- 大資料架構師大資料架構
- 資料工程師、掌握資料分析,成為資料科學家、資料庫遷移專家工程師資料科學資料庫
- 一張圖:資料分析師的完整資料視覺化指南圖視覺化
- 我們都在說虛幻5厲害,但它究竟厲害在哪?
- 普通程式設計師和厲害程式設計師的差距!程式設計師