給大資料入行者的,建議和書單
入行必讀:與大資料相關的工作職位有哪些?
國內某知名網際網路公司,有關資料分析師崗位的,要求描述:
1. 計算機、統計學、數學等相關專業本科及以上學歷;
2. 具有深厚的統計學、資料探勘知識,熟悉資料倉儲和資料探勘的相關技術,能夠熟練地使用SQL;
3. 三年以上具有海量資料探勘、分析相關專案實施的工作經驗,參與過較完整的資料採集、整理、分析和建模工作;
4. 對商業和業務邏輯敏感,熟悉傳統行業資料探勘背景、瞭解市場特點及使用者需求,有網際網路相關行業背景,有網站使用者行為研究和文字挖掘經驗尤佳;
5. 具備良好的邏輯分析能力、組織溝通能力和團隊精神;
6. 富有創新精神,充滿激情,樂於接受挑戰
其中,前三條屬硬體要求。一般而言,對於有專業基礎(計算機、統計學、數學等相關專業)的同學,入行需要3個月以上的學習與準備時間;而對於非專業背景的轉行者來說,入行可能需要更久一點,建議6-12個月的預留時間是合理的。而要成為一個熟練的大資料從業者,2-3年以上的專案和行業經驗則是在所難免。
資料分析是一種工具,在金融、網際網路、電子商務、公共服務、醫療健康等領域都有著廣泛的應用。職位上,偏業務的,有資料分析師、資料產品經理、資料探勘師等;偏技術的,有大資料工程師、架構師、演算法工程師等。晉升通道,是業務主管/資料中心主任、CIO/CDO/CTO、VP、首席資料科學家。可見,資料分析對專業背景和知識素養都有相當的要求,再加之大資料在數學和計算機領域的交叉屬性,從事大資料都有一定的門檻限制。
要不要轉行?
要不要轉行,實際上涉及到職業規劃的問題。對此,曾有位哲人發表見解,”最重要的人際關係,是自己與自己的關係,知道自己要什麼,不要什麼“。這在轉行問題上,也是一樣。相對於10年以上的職業生涯,拿半年時間用來學習該項技能,還是挺划算的。
讀到這兒,可能有人會說了,轉行會讓之前幾年的經驗積累統統作廢。而實際上,小編認為不必過於擔心,因為無論轉到哪一行,社會經驗和人生理念是都會發揮作用的。而之前的人際關係也類似“山不轉水轉”的問題,很難界定說哪類人際關係有用,哪類無用——基於這個道理,應全部視作有用。
人生的機會並不多,即使到了30歲,對大多數人來說,這也只是職業生涯的前半部分,完全不必縮頭縮腦患得患失。要知道,不怕失去,才有可能收穫更多。如果有了明確的發展規劃,何不義無反顧地投入到新的開始呢?!
如何轉行?
明確了要不要轉行之後,就又回到如何轉行的問題上來了。
如果你尚未畢業,建議先打好基礎,學好概率與數理統計、數值分析、多元分析、泛函分析、軟體工程等,可以選修軟體工程、資料庫原理、一到兩門程式語言; 同時掌握分析工具(如spss/R/matlab)原理;有時間的話,可以參加一些資料建模方面的大賽,對自己能力提升和職業生涯會很有幫助。
如果,你已經是一個從業者。要想跨入資料分析師,也許很多情況下你只能從“工人”做起(這意味著在很大長一段時間內,你的工作內容都可能比較枯燥,做的也都是沒有“技術”含量的內容),但當你慢慢成為“熟練工”時,隨著行業知識和技能的積累,你也會走上“資料設計師”之路。開始從事“高大上”或更有技術含量的工作。
一、至少花三個月掌握技術
正所謂“磨刀不誤砍柴工”,作為一個技術工種 ,至少花3-6個月的時間學習大資料分析相關基礎知識,是不過分的。時間分配如下:
1、花1個月時間,學習資料庫、sql知識,推薦《 深入淺出 SQL(中文版)》;
2、花1-2個月時間,學習基礎的統計學知識,蒐集統計學學習資料,列個統計學書單;
3、花1個月時間,學習最基礎的資料探勘模型, 推薦《資料探勘導論( PDF 中文完整版)》;
4、花1個月時間,掌握一門基礎的挖掘軟體。
基礎夯實之後,還要保持持續的學習能力。堅持學習各類知識,不僅限於技能層面。
二、選擇感興趣的行業
如果,你還沒畢業。
可以在結合熱門行業的基礎上,分析自己的興趣。選定一個行業後,可以通過網際網路,熟悉所行業對應的商業模式。有機會,也可以參加一些同行的沙龍或分享,以瞭解該崗位的人都在做什麼 。並對比自己當前的知識儲備,有針對性地補充知識。
如果,你已是從業者。
選擇本行業或相關行業,會讓你的行業經驗和業務知識,更好地發揮優勢。
三、開始尋找機會
對於跨行業轉入的同學,當你做好上述準備的時候。就可以著手找個機會了:
1、內部轉崗
2、選擇中、小型公司,先入門,再修行。
幾點建議
1)勤動手,多實踐:
看書和看視訊是學不會資料分析的。多參加一些專案,擼起袖子玩資料(make your hands dirty)。通過校內大賽增加實踐機會,入行時候找一份能接觸到資料的崗位(任何崗位都可以,市場、運營之類的職位很多)。
工具先從一個容易上手的學起,excel/spss/sql都可以,順手就行,後續可以再學高階工具如R或者python,用到專精同樣有殺傷力。
2)終身學習:
前面已經講過了,即便用一段時間掌握了大資料分析相關基礎知識,也還是要在之後的從業生涯裡,保持持續的學習力。
因為,大資料是一個實踐性很強的學科,從實際工作中獲取的知識和能力是學校裡無法獲得的,企業最終看重的,也是一個人的實際工作能力。你可以在學習社群通過分享和交流,補充課外知識和get新技能。
推薦的書籍
1.《統計學習基礎 資料探勘、推理與預測》
儘管應用的是統計學方法,但強調的是概念,而不是數學。《統計學習基礎:資料探勘、推理與預測》內容廣泛,從有指導的學習(預測),到無指導的學習;從神經網路、支援向量機,到分類樹、提升等主題,應有盡有,許多例子還附以彩圖,是同類書籍中介紹最全面的。計算和資訊科技的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量資料。理解這些資料是一種挑戰,這導致了統計學領域新工具的發展,並延伸到諸如資料探勘、機器學習和生物資訊學等新領域。
2.《模式分類》第二版
除了保留了第1版的關於統計模式識別和結構模式識別的主要內容以外,讀者將會發現新增了許多近25年來的新理論和新方法,其中包括神經網路、機器學習、資料探勘、進化計算、不變數理論、隱馬爾可夫模型、統計學習理論和支援向量機等。
3.《推薦系統實踐》
過大量程式碼和圖表全面系統地闡述了和推薦系統有關的理論基礎,介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試),總結了當今網際網路領域中各種和推薦有關的產品和服務。
4.《深入搜尋引擎–海量資訊的壓縮、索引和查詢》
理論和實踐並重,深入淺出地給出了海量資訊資料處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在於不僅僅滿足資訊檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。
5.《概率論與數理統計》
這本書不用過多介紹了吧,普遍大學裡大一時期的教科書,只恨當年沒聽課啊,現在正在慢慢啃。
6.《大資料:網際網路大規模資料探勘與分散式處理》
主要內容包括分散式檔案系統、相似性搜尋、搜尋引擎技術、頻繁項集挖掘、聚類演算法、廣告管理及推薦系統。
7.《Web資料探勘》
資訊檢索領域的書籍,該書深入講解了從大量非結構化Web資料中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web資訊採集機制、Web標引機制以及基於關鍵字或基於相似性搜尋機制),然後系統地描述了Web挖掘的基礎知識,著重介紹基於超文字的機器學習和資料探勘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的應用。《Web資料探勘》為讀者提供了堅實的技術背景和最新的知識。
8.《資料之巔》
對大資料追根溯源,提出當前資訊科技的發展,已經讓中國獲得了後發優勢,中國要在大資料時代的全球競爭中勝出,必須把大資料從科技符號提升成為文化符號,在全社會倡導資料文化。
9.《深入淺出統計學》
本書涵蓋的知識點包括:資訊視覺化、概率計算、幾何分佈、二項分佈及泊松分佈、正態分佈、統計抽樣、置信區間的構建、假設檢驗、卡方分佈、相關與迴歸等等,完整涵蓋AP考試範圍。
10.《矩陣分析》
本書從數學分析的角度論述矩陣分析的經典方法和現代方法,取材新,有一定的深度,並給出在多元微積分、複分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括:特徵值、特徵向量和相似性,酉等價和正規矩陣,標準形,Hermite矩陣和對稱矩陣,向量範數和矩陣範數,特徵值和估計和擾動,正定矩陣,非負矩陣。
11.《統計學習方法》
本書全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支援向量機、提升方法、em演算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外,每章介紹一種方法。敘述從具體問題或例項入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題,列出了主要參考文獻。
12.《機器學習導論》
對機器學習的定義和應用例項進行了介紹,涵蓋了監督學習。貝葉斯決策理論。引數方法、多元方法、維度歸約、聚類、非引數方法、決策樹。線性判別式、多層感知器,區域性模型、隱馬爾可夫模型。分類演算法評估和比較,組合多學習器以及增強學習等。
《機器學習及其應用》:全書共分14章,內容涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社群推薦、機器翻譯等應用,以及網際網路應用對機
相關文章
- 五個給機器學習和資料科學入門者的學習建議機器學習資料科學
- 學習大資料專業的學生讀書,有什麼建議和推薦的書籍?大資料
- 寫給資料分析師的幾點建議
- Linux入門(2)_給初學者的建議Linux
- QQ群裡的一些聊天資料,看了給點建議和幫助
- 給PHP開發者的建議PHP
- 過來人對大資料學習的建議大資料
- 資料遷移中的資料庫檢查和建議資料庫
- 資料庫操作規範及SQL書寫建議資料庫SQL
- 給IT新人的15點建議
- 給 itpub 提建議
- 國外PHP大師給初學者的8條建議PHP
- Linux新手如何入門?給新手的四點建議!Linux
- 機器學習和資料探勘的推薦書單機器學習
- 給年輕人的有關AIGC的資訊、思考和建議AIGC
- 給新手學習MySQL的建議MySql
- 大資料學習入門看什麼書?大資料新手怎麼入門?大資料
- 構建“資料要素×”的保障中臺和安全供給
- 資料庫系統操作規範及SQL書寫建議資料庫SQL
- 嵌入式入門建議(內附資料福利)
- 【立項建議書】蘇科大校園app立項建議書APP
- 行業資深專家切身經驗——給資料科學家新手的建議行業資料科學
- 給 Java 開發者的 10 個大資料工具和框架Java大資料框架
- 資料庫查詢和資料庫(MySQL)索引的最佳化建議資料庫MySql索引
- 資深HR給畢業生的實用求職建議求職
- 給軟體工程師的12條單體測試的建議薦軟體工程工程師
- React Native 入門(三) - 給 Android 開發者的學習建議React NativeAndroid
- 給機器學習面試者的十項建議機器學習面試
- 給初學java的一點建議Java
- 記一次資料庫的分析和優化建議資料庫優化
- 大資料學習入門難,給初學者支招大資料
- 資料庫優化建議資料庫優化
- 大資料學習:零基礎大資料入門該看哪些書?大資料
- 地獄黑客給你的十大網路安全防範建議黑客
- 合同管理系統建設建議書
- 給0基礎入門Linux運維新手的五個建議!Linux運維
- 關於技能技術企劃書的疑問和建議
- 建議收藏!大資料分析如何幫助企業成長大資料