給大資料入行者的,建議和書單

weixin_33831196發表於2017-03-01

4669699-4c052c3de3f6a860.jpg

入行必讀:與大資料相關的工作職位有哪些?

國內某知名網際網路公司,有關資料分析師崗位的,要求描述:

1. 計算機、統計學、數學等相關專業本科及以上學歷;

2. 具有深厚的統計學、資料探勘知識,熟悉資料倉儲和資料探勘的相關技術,能夠熟練地使用SQL;

3. 三年以上具有海量資料探勘、分析相關專案實施的工作經驗,參與過較完整的資料採集、整理、分析和建模工作;

4. 對商業和業務邏輯敏感,熟悉傳統行業資料探勘背景、瞭解市場特點及使用者需求,有網際網路相關行業背景,有網站使用者行為研究和文字挖掘經驗尤佳;

5. 具備良好的邏輯分析能力、組織溝通能力和團隊精神;

6. 富有創新精神,充滿激情,樂於接受挑戰

其中,前三條屬硬體要求。一般而言,對於有專業基礎(計算機、統計學、數學等相關專業)的同學,入行需要3個月以上的學習與準備時間;而對於非專業背景的轉行者來說,入行可能需要更久一點,建議6-12個月的預留時間是合理的。而要成為一個熟練的大資料從業者,2-3年以上的專案和行業經驗則是在所難免。

資料分析是一種工具,在金融、網際網路、電子商務、公共服務、醫療健康等領域都有著廣泛的應用。職位上,偏業務的,有資料分析師、資料產品經理、資料探勘師等;偏技術的,有大資料工程師、架構師、演算法工程師等。晉升通道,是業務主管/資料中心主任、CIO/CDO/CTO、VP、首席資料科學家。可見,資料分析對專業背景和知識素養都有相當的要求,再加之大資料在數學和計算機領域的交叉屬性,從事大資料都有一定的門檻限制。

要不要轉行?

要不要轉行,實際上涉及到職業規劃的問題。對此,曾有位哲人發表見解,”最重要的人際關係,是自己與自己的關係,知道自己要什麼,不要什麼“。這在轉行問題上,也是一樣。相對於10年以上的職業生涯,拿半年時間用來學習該項技能,還是挺划算的。

讀到這兒,可能有人會說了,轉行會讓之前幾年的經驗積累統統作廢。而實際上,小編認為不必過於擔心,因為無論轉到哪一行,社會經驗和人生理念是都會發揮作用的。而之前的人際關係也類似“山不轉水轉”的問題,很難界定說哪類人際關係有用,哪類無用——基於這個道理,應全部視作有用。

人生的機會並不多,即使到了30歲,對大多數人來說,這也只是職業生涯的前半部分,完全不必縮頭縮腦患得患失。要知道,不怕失去,才有可能收穫更多。如果有了明確的發展規劃,何不義無反顧地投入到新的開始呢?!

如何轉行?

明確了要不要轉行之後,就又回到如何轉行的問題上來了。

如果你尚未畢業,建議先打好基礎,學好概率與數理統計、數值分析、多元分析、泛函分析、軟體工程等,可以選修軟體工程、資料庫原理、一到兩門程式語言; 同時掌握分析工具(如spss/R/matlab)原理;有時間的話,可以參加一些資料建模方面的大賽,對自己能力提升和職業生涯會很有幫助。

如果,你已經是一個從業者。要想跨入資料分析師,也許很多情況下你只能從“工人”做起(這意味著在很大長一段時間內,你的工作內容都可能比較枯燥,做的也都是沒有“技術”含量的內容),但當你慢慢成為“熟練工”時,隨著行業知識和技能的積累,你也會走上“資料設計師”之路。開始從事“高大上”或更有技術含量的工作。

一、至少花三個月掌握技術

正所謂“磨刀不誤砍柴工”,作為一個技術工種 ,至少花3-6個月的時間學習大資料分析相關基礎知識,是不過分的。時間分配如下:

1、花1個月時間,學習資料庫、sql知識,推薦《 深入淺出 SQL(中文版)》;

2、花1-2個月時間,學習基礎的統計學知識,蒐集統計學學習資料,列個統計學書單;

3、花1個月時間,學習最基礎的資料探勘模型, 推薦《資料探勘導論( PDF 中文完整版)》;

4、花1個月時間,掌握一門基礎的挖掘軟體。

基礎夯實之後,還要保持持續的學習能力。堅持學習各類知識,不僅限於技能層面。

二、選擇感興趣的行業

如果,你還沒畢業。

可以在結合熱門行業的基礎上,分析自己的興趣。選定一個行業後,可以通過網際網路,熟悉所行業對應的商業模式。有機會,也可以參加一些同行的沙龍或分享,以瞭解該崗位的人都在做什麼 。並對比自己當前的知識儲備,有針對性地補充知識。

如果,你已是從業者。

選擇本行業或相關行業,會讓你的行業經驗和業務知識,更好地發揮優勢。

三、開始尋找機會

對於跨行業轉入的同學,當你做好上述準備的時候。就可以著手找個機會了:

1、內部轉崗

2、選擇中、小型公司,先入門,再修行。

幾點建議

1)勤動手,多實踐:

看書和看視訊是學不會資料分析的。多參加一些專案,擼起袖子玩資料(make your hands dirty)。通過校內大賽增加實踐機會,入行時候找一份能接觸到資料的崗位(任何崗位都可以,市場、運營之類的職位很多)。

工具先從一個容易上手的學起,excel/spss/sql都可以,順手就行,後續可以再學高階工具如R或者python,用到專精同樣有殺傷力。

2)終身學習:

前面已經講過了,即便用一段時間掌握了大資料分析相關基礎知識,也還是要在之後的從業生涯裡,保持持續的學習力。

因為,大資料是一個實踐性很強的學科,從實際工作中獲取的知識和能力是學校裡無法獲得的,企業最終看重的,也是一個人的實際工作能力。你可以在學習社群通過分享和交流,補充課外知識和get新技能。

推薦的書籍

1.《統計學習基礎 資料探勘、推理與預測》

儘管應用的是統計學方法,但強調的是概念,而不是數學。《統計學習基礎:資料探勘、推理與預測》內容廣泛,從有指導的學習(預測),到無指導的學習;從神經網路、支援向量機,到分類樹、提升等主題,應有盡有,許多例子還附以彩圖,是同類書籍中介紹最全面的。計算和資訊科技的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量資料。理解這些資料是一種挑戰,這導致了統計學領域新工具的發展,並延伸到諸如資料探勘、機器學習和生物資訊學等新領域。

2.《模式分類》第二版

除了保留了第1版的關於統計模式識別和結構模式識別的主要內容以外,讀者將會發現新增了許多近25年來的新理論和新方法,其中包括神經網路、機器學習、資料探勘、進化計算、不變數理論、隱馬爾可夫模型、統計學習理論和支援向量機等。

3.《推薦系統實踐》

過大量程式碼和圖表全面系統地闡述了和推薦系統有關的理論基礎,介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試),總結了當今網際網路領域中各種和推薦有關的產品和服務。

4.《深入搜尋引擎–海量資訊的壓縮、索引和查詢》

理論和實踐並重,深入淺出地給出了海量資訊資料處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在於不僅僅滿足資訊檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。

5.《概率論與數理統計》

這本書不用過多介紹了吧,普遍大學裡大一時期的教科書,只恨當年沒聽課啊,現在正在慢慢啃。

6.《大資料:網際網路大規模資料探勘與分散式處理》

主要內容包括分散式檔案系統、相似性搜尋、搜尋引擎技術、頻繁項集挖掘、聚類演算法、廣告管理及推薦系統。

7.《Web資料探勘》

資訊檢索領域的書籍,該書深入講解了從大量非結構化Web資料中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web資訊採集機制、Web標引機制以及基於關鍵字或基於相似性搜尋機制),然後系統地描述了Web挖掘的基礎知識,著重介紹基於超文字的機器學習和資料探勘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的應用。《Web資料探勘》為讀者提供了堅實的技術背景和最新的知識。

8.《資料之巔》

對大資料追根溯源,提出當前資訊科技的發展,已經讓中國獲得了後發優勢,中國要在大資料時代的全球競爭中勝出,必須把大資料從科技符號提升成為文化符號,在全社會倡導資料文化。

9.《深入淺出統計學》

本書涵蓋的知識點包括:資訊視覺化、概率計算、幾何分佈、二項分佈及泊松分佈、正態分佈、統計抽樣、置信區間的構建、假設檢驗、卡方分佈、相關與迴歸等等,完整涵蓋AP考試範圍。

10.《矩陣分析》

本書從數學分析的角度論述矩陣分析的經典方法和現代方法,取材新,有一定的深度,並給出在多元微積分、複分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括:特徵值、特徵向量和相似性,酉等價和正規矩陣,標準形,Hermite矩陣和對稱矩陣,向量範數和矩陣範數,特徵值和估計和擾動,正定矩陣,非負矩陣。

11.《統計學習方法》

本書全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支援向量機、提升方法、em演算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外,每章介紹一種方法。敘述從具體問題或例項入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題,列出了主要參考文獻。

12.《機器學習導論》

對機器學習的定義和應用例項進行了介紹,涵蓋了監督學習。貝葉斯決策理論。引數方法、多元方法、維度歸約、聚類、非引數方法、決策樹。線性判別式、多層感知器,區域性模型、隱馬爾可夫模型。分類演算法評估和比較,組合多學習器以及增強學習等。

《機器學習及其應用》:全書共分14章,內容涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社群推薦、機器翻譯等應用,以及網際網路應用對機

相關文章