資料分析師職業發展白皮書(2015版)
目 錄
一、是技術也是藝術——CDA研究院和業界前沿公司和對資料分析的認識
二、資料分析師職業發展歷程
1.國外資料分析行業發展歷程
2.國內資料分析師職業發展
三、資料分析師人才行業現狀
1.人才模型/崗位劃分
2.國內資料分析師人才薪資水平
3.國內資料分析師人才分佈
4.國內資料分析師人才需求
四、資料分析師人才職業規劃
1.目前人才職業現狀
2.資料分析人才學習路徑
3.總結
五、CDA資料分析師培訓及認證
1.考試簡介
2.為什麼選擇CDA等級認證考試?
3.如何成為一名CDA資料分析師?
4.人大經濟論壇CDA優勢
六、資料分析師行業發展前景
1.優勢、劣勢
2.展望
七、資料分析師行業對《促進大資料發展行動綱要》的響應
1.知識分享氛圍的培養
2.人才培養體系的建立
3.從業人員自律文化的形成
八、附錄
附錄1. 經管之家(原人大經濟論壇)發展歷程
附錄2. 國內重要大資料相關政策行動梳理
資料是指以時間為軸,記錄人物、地點、事件和方法等生活各個維度的數字字元。資料會隨著時間不斷累積,也會隨著科技、生活觀念等變化而呈現出不同的特性。消費者去商場用現金支付的方式購買了一件心儀的衣服,商店的日銷售報告中記錄了此次交易的金額、數量、款式和型號。當消費者採用的是刷卡的支付方式時,銀行的日流水單以及商店的 Pose 機刷卡記錄就產生了一筆時時交易資料。如果該消費者還是這家商店的會員,那麼該商店就擁有了該消費者部分基本資訊以及多次購買產品的交易記錄。 隨著網際網路、自動化科技的發展, 消費者更多的參與了 線上交易,那麼線上交易平臺會產生消費者常用地址、聯絡方式、 偏好產品、產品型號、消費額度和消費頻率等全面而及時地消費資料。
在傳統的商業和社會環境下,人們對於資料的利用是非常有限的。企業和商家們利用自身的營銷資料彙編成財務報告、資訊披露報告,用來為管理層或者潛在投資者?供企業經營狀況的參考資料。政府各個機構擁有的人口、巨集觀指標、地區發展、部門業務發展等各方面的資料為定期政府報告等特定事項提供資料服務。資料成為我們衡量過去發展狀況和業績水平的一種度量衡。 傳統意義上對於資料利用存在的缺失是不可忽視的。
首先,傳統意義上對於資料的利用形成了無數個資料孤島。巨集觀資料、調研資料、社會化資料和企業資料之間存在資料孤島,而政府內部和企業內部同樣存在資料孤島。 各個政府部門、甚至每個政府部門內部都有自身因專門的業務內容而產生專項資料,但是這些專項資料僅僅在服從專項需求時才被區域性呼叫。企業內部也是這樣,除了必要的資訊披露之外,企業各部門之間的資料也是缺乏協同和共享機制的。資料孤島的存在比我們想象得還要多而廣泛,也極大地降低了對資料的利用。
其次,傳統資料存在缺失和錯誤的比率較大。商務系統和網際網路尚未發展的情況下,企業和社會運營的資料很多是通過人工的方式進行記錄的,因此就很容易存在資料缺失和資料失實的情況。更重要的是,很多資料的產生需要大量的人力、物力去完成,在不可估量商業價值的情況下,資料的累積往往具有很強的延時性。
再次,資料的價值被低估, 缺乏專業的資料分析人員對資料的商業和社會價值進行分析。我們會發現,傳統意義上的資料管理是基於某些特定的目的和需求,例如定期的資訊披露,盈餘管理和預測等。但是這些目的和需求都不是為了能夠創造價值而設立的,更多的是一種業務和管理層面的輔助。在缺乏商業利益動機的前提下,也就沒有專業資料分析師存在的必要。
近兩年國內 市場對資料分析師職位的需求逐步湧現。 根據獵聘網資料顯示,全國中高階職位中資料分析師職位由 2014 年初的 200 多個職位逐步增長到接近 3000 個職位,資料分析師職位無論從絕對數到相對數量而言都出現了快速增長的態勢。就地區發展而言,資料分析師職位主要分佈在北京、上海、杭州、深圳和廣州的一線城市,二線城市目前對於資料分析師的需求相對滯後。分析師職位主要集中在網際網路、金融、消費品、製藥和醫療等行業,其中網際網路和金融行業的分析師職位數超過了 80%。 目前資料分析師的薪酬水平高於行業平均水平,體現出資料分析師以及資料的價值正在逐漸被市場所認可。
資料分析師職位的大量湧現和對資料分析師市場價值的認可主要是基於資料分析3.0時代的到來。1954-2005年,電腦裝置廣泛應用,資料庫的初步形成;2005-2013年,網際網路蓬勃發展,網際網路公司為了解決自身資料量較大、資料複雜的問題引入瞭解決資料問題的分析工具;2013 年至今, 傳統行業開始引入網際網路行業中運用的資料分析方法,資料分析3.0時代開啟。2013年至今,資料相關企業迅速發展,包括為資料?供分析、服務、軟體和硬體相關的商業化和開源公司。鑑於網際網路行業對於大資料分析成功的經驗,市場開始重視資料和資料分析對創造商業價值的重大潛力。
大資料時代我們擁有的資料是足夠大的。在網際網路的世界裡,每分鐘 Facebook平均有600次的訪問量,並有新增使用者28萬;Amazon 每分鐘銷售高達8.3萬美元;全球 IP 網一分鐘能夠傳輸639TB的資料;你需要花費5年的時間才能看完網際網路上一秒鐘傳輸的視訊。同時,大資料時代的資料開始逐步走向多元化的趨勢。 資料來源包括移動資料、店面交易、網路行為、定位資訊、電商、使用者調查、社會網路以及企業CRM 等。大資料時代視覺化趨勢明顯,開始重視展示資料的線上動態模式以及分佈形態。 資料視覺化是一種新的資料分析手段、一種敘事手段,並且包含了思考和批判的思維。通過資料視覺化的方式,我們能夠探查資料之間的關聯。隨著技術的發展,視覺化將推動資料時時動態,以及自動化更新和釋出的發展。
但是無論資料的形態和體量發生了何種變化,缺乏資料分析的資料本身是不具備商業價值的。資料分析能夠為大資料時代帶來質的飛躍。SAS 公司將資料分析分為了八個等級,分別是常規報表、查詢、多維分析、警報、統計分析、預報、預測建模和優化。常規報表、查詢、多維分析、警報,這資料分析的前四個等級都只能展示已經發生的歷史狀況,但是資料分析不僅僅如此。 統計分析能夠幫助我們找到觸發事件發生的相關因素、 確認最為有效的潛在交易方案。 預報可以告訴我們未來股市預期變動或者是企業未來盈利水平預期。 預測建模可以幫助金融機構預測新的金融產品的潛在客戶。 運籌優化能夠幫助企業在限定的條件下把握最優的業務機會。
資料分析的核心思路就是要與實際業務、商業目的和運營目標相結合,進而為社會、經濟和個體創造價值。 資料分析與業務流程相結合可以體現為五個基本步驟,包括認知、運營、互動、銷售和維護。商業運營要與資料分析的關鍵指標緊密聯絡,用資料提高產品市場營銷效率和推廣效率。大資料的維護和累積能夠為商業運營描繪完整的企業畫像、客戶畫像。大資料畫像包括了了解企業或者客戶的基本資訊、需求傾向、使用者行為等等。通過追蹤核心的資料指標,進一步完善企業或者客戶畫像,進而將其轉化成為產品元素和營銷戰略。通過資料分析,我們可以知道通過什麼渠道、以最小的成本將競爭對手的客戶 轉化為自身的客戶, 進而創造營業收益。 通過大資料與運營維護的結合可以很大程度上提高客戶滿意度,降低客戶的流失率。
目前資料分析實踐的運用主要體現在物聯網、定位服務、客戶製成以及反欺詐領域。首先是物聯網領域。以 UPS 為例, UPS 每天通過 5 萬臺快遞車派送約 1630 萬個包括。 UPS 在每臺快遞車上都安裝了感測器,並且通過感測器傳輸資料分析,制定每天每臺車少跑一英里的運營戰略,該戰略為 UPS 每年實現了約 3000 完美元的盈利。其次是定位服務。以美洲銀行為例,美洲銀行為其客戶?供漢堡王的優惠券。該優惠券以美洲銀行客戶刷卡記錄資料為基礎,判斷漢堡王潛在競爭對手的客戶,並對這些客戶進行了定向、定位的優惠券推送。該項營銷戰略既維護了美洲銀行客戶,也為漢堡王實現了創收。再次是客戶支撐。通過文字挖掘、自然語言處理、情感分析等手段,對客戶評論、客戶投訴、海外輿情、媒體報導資料進行分類處理, 進而充分掌握客戶潛在的需求,達到及時有效維護客戶的商業目的。最後是反欺詐領域。最典型的例子就是保險公司騙保。我們都過神經網路分析等多元的資料分析方法及時識別和判斷已有的欺詐模式和潛在的欺詐人群,進而有效的進行客戶管理,確保企業運營和效益。
在傳統的資料分析模式下,我們通常是先提出假設檢驗,後帶著問題去進行資料分析。在大資料時代下,我們更重要的是關注小資料完善和收集的同時,構建完善的資料互動平臺。在先有資料的基礎上,在資料中找尋新的思路和創新機遇,進而實現價值的飛躍。在資料爆炸和新媒體時代的背景下, 文字、圖片、 視訊、 網路資料等新興的資料模式使得我們需要掌握和運用全新的資料處理方式。 同時, 我們還需要對資料進行生命週期的管理, 對非結構資料進行篩選和標籤化。資料分析看重的是資料的多元性和資料的質量,我們需要構建起大資料譜系, 同時結合資料的特性採用不同的資料分析方法、分析工具和分析模型。因此,資料分析需要較為綜合的思維和能力。
綜上可知,資料分析是一門技術也是一門藝術,資料分析起源於生活,也為生活創造著新的價值。 從事資料分析師需要累計多元化的知識和素質,包括統計學、機器學習、工程、視覺化、深刻行業知識、強資料庫能力,煉精煉資訊的能力、運籌學等。資料分析師還需要具備懷疑態度以及創造能力,才能將資料的技術和藝術相結合,使得資料分析能夠業務相結合,更加貼近我們的生活。 多元化的學識背景以及對於生活的感知能夠造就一名優秀的資料分析師。 大資料時代已經來臨,資料分析行業的急速擴充套件必然給資料分析師們帶來廣闊的發展空間。資料分析師是一門需要掌握多後設資料分析技術,是擁有生活感知、經濟分析能力的高階人才就業崗位。
目前,資料分析師行業仍然處於發展的初期階段,也就存在著發展初期必然有的一些問題。資料分析整體的發展區域集中在幾個少數的一線城市,發展和就業機會相對還是比較有限的。資料孤島仍然在很大程度上未被消除,需要政府和政策上進一步對此進行扶持和推動。資料分析全自動化流程尚未形成,半自動化的資料環境下,資料分析還是存在時間延遲和殘缺等一系列的問題。 上述幾個方面都需要政府相關部門、行業領軍人物以及資料分析浪潮的每個參與者共同努力。
資料分析師,是指在網際網路、金融、電信、醫療、旅遊、零售等多個行業專門從事資料的採集、清洗、處理、分析,能夠利用統計數 據、定量分析和資訊建模等技術製作業務報告、進行行業研究、評估和預測,從而為企業或所在部門提供商業決策的新型資料分析人才。
1. 國外資料分析行業發展歷程
2015 年 2 月 ,美國白宮正式命名DJ Patil擔任首席資料科學家和制定資料策略的副技術長。 DJ Patil曾在LinkedIn、 eBay、 PayPal、 Skype和風險投資公司Greylock Partners等諸多矽谷知名公司工作過,積累了豐富的經驗,在上任之後將會扮演負責政府大資料應用開發專家的角色,尤其是針對奧巴馬的醫療改革方案。美國政府正在用實際行動告訴全世界, 其已經意識到要充分利用其他們的資料。
IDC(網際網路資料中心)預測,目前每年資料的生產量是8ZB,2020 年將達到40ZB。屬於大資料的時代已經到來。
圖 1. 全球資料年產量
資料生產量“ 拐點” 已至,將開始爆發式增長。我們正處在一個資料量爆發增長的時代,當今的資訊產業呈現出前所未有的繁榮,新的網際網路技術不斷湧現,從傳統網際網路的PC終端,到移動網際網路的智慧手機,再到物聯網感測器,技術革新使資料生產能力呈指數級提升。
在歐美日等已開發國家,資料分析行業不僅僅在企業的運營管理中起到舉足輕重的作用,也在政府的社會治理等方面發揮著重要作用。2012年的美國總統的大選中,奧巴馬就利用資料分析武器,來了解不同選民的需求,設計並策劃合理有效的“自我營銷”亊件,最終在選舉中擊敗勁敵羅姆尼贏得違任,此案已經傳為“資料分析”致勝的佳話。
資料分析行業在已開發國家,不僅僅在企業中有大量的從業人員,並且發展出很多具有規模的專業性服務機構。這些專業的服務機構有的來源於資訊科技公司,如 IBM、惠普、微軟;有的則來自資料庫軟體公司,如甲骨文;更有的來自傳統行業如亞馬遜、沃爾瑪;當然也有一些新興的專業諮詢企業,在投資公司和私募基金的資金支援下,獲得飛速的發展,如: Mu Sigma, TeraData 等。其中美國有近萬家專門從事資料分析的服務公司,年營業額達到幾千億美元,英國有三千多家,日本有一千多家,瑞典也有五百多家有影響的資料分析服務公司。
從資料分析師職業來看,資料分析行業在國外從業人群眾多。在美國,幾乎所有大中型企業裡都有專業的資料分析人才從事相關的資料分析工作,數量有數百萬之多,日本有十五萬多,瑞典也有十萬多名資料分析專業技術人員。資料分析高階人才的需求這幾年仍在迅速擴張和增加,資料分析人才的供應量遠遠趕不上需求量,缺口很大。
IDC(網際網路資料中心)釋出預測報告稱,2017年大資料技術和服務市場將增至324 億美元,實現 27%的年複合增長率。此外還預測基於大資料的決策解決方案將開始取代或影響知識工作者角色,這勢必引發人才轉型。
2. 國內資料分析師職業發展
資料分析行業在國外歷史已久,伴隨著網際網路技術、資訊科技、通訊技術的發展,目前已經非常成熟,並遠遠領先國內的發展水平,據估計,這一差距至少要有5-10年。
自改革開放以來,隨著國內經濟的快速發展以及在各大行業與國際接軌的步伐不斷擴大,國內的資料分析行業從 2003 年開始覺醒和漸熱,如今已經過 12 年的發展。這期間資料科學相關職業從少到多、認證協會從無到有、資料分析挖掘工作從模糊到清晰。如今,中國的資料分析行業經過十多年的磨礪,正迎來輝煌燦爛的井噴式發展期。
2004 年至 2006 年是資料分析行業的起步階段;從 2006 年到 2010 年,資料分析行業已經全面成型,相關的培養方案和課程體系進一步完善,全國性行業協會的申請工作正式開展。我國資料分析師人數從零起步,猛增至近萬人。資料人才的分佈領域也從最初的分析評估業和金融業,迅速擴充套件到會計師、投融資機構、政府審批和企業管理等眾多領域,涉及的行業從銀行保險等金融行業到分析服務業、製藥業、石油和天燃氣行業以及 IT 行業,資料分析師迅速成為國內炙手可熱的職業之一。
2011 年,“雲端計算”的概念風靡世界,並開始在全國推廣,國內一些大型網際網路公司如阿里巴巴等建成了一大批以“雲端計算技術”和“雲端儲存技術”為概念的“雲端計算中心”,並投資開發多個開發區。這為資料採集後的儲存、處理、傳輸和分析提供了基礎。資料分析師職業有了更加具體的應用方向。
自2012年開始,“大資料”一詞橫空出世,國外的一些行業領導者開始提出“大資料時代”的概念。“大資料”一開始就不止步於理論,它對大量和複雜資料的處理,在技術上提出了新的擴充思路和方向。隨著網際網路技術的提速、第四代移動網際網路的廣泛應用、社交媒體的移動化,各行各業在資料的內容、結構、複雜程度和數量方面都呈現出幾何倍增的特徵。很多企業的資料分析師對如何更好地利用海量資料為政府管理、企業運營等決策提供了科學的依據。這也為“資料分析師”這一職業的快速發展開拓了巨大的空間。 CSDN 的一項調查報告指出,國內的大資料應用目前多集中在網際網路領域,並且有超過 56%的企業在籌備和發展大資料研究。未來5年,94%的公司都需要資料分析專業人才。
埃森哲一項分析報告曾指出,資料分析人才價值倍增的原因在於業務分析法已經從企業的輔助角色躍升至核心地位,並能夠幫助企業制定許多重要的決策和流程。對處於這一發展趨勢最前沿的網際網路行業而言,分析法已經成為一項企業戰略效能力。即便是在分析法仍處於起步階段的電子和高科技等行業,分析人才也是企業未來高速發展的關鍵所在。在報告中,在所調查的包括分析服務業、銀行業、石油天然氣行業、通訊技術行業等七大傳統行業內,新增的資料分析就業機會在中國的發展速度僅次於美國,在2015年將增加30500人, 74%的新增資料分析專家工作將會出現在中國、印度和巴西;儘管美國提供供了最多的資料分析就業機會,但是,中國、印度和巴西的資料分析職業發展速度更快,並且只需要短短十年,中國和印度就將在這些行業中僱用近一半的資料分析人才。
圖 2. 資料分析相關人才職位數調查預測
不難看出,美國提供了最多的資料分析相關人才就業機會,但是中國、印度和巴西的相關職位發展速度更快。
如今,我們已經進入了企業發展日新月異的“網際網路+”時代—一個用資料說話的時代,也是一個依靠資料競爭的時代。目前在世界 500 強企業中,有 90%以上都建立了資料分析部門。 IBM、微軟、 Google 等知名巨頭公司都在積極投資資料業務、建立資料部門、培養資料分析團隊。各國政府和越來越多的企業意識到資料和資訊已經成為企業的智力資產和資源,資料的分析和處理能力正在成為企業日益倚重的技術手段。我國在網際網路行業熱錢湧動的又一波浪潮下,對資料分析方面人才的需求更加迫切,培養力度更是空前。
1. 人才模型/崗位劃分
在國內,大資料的應用才剛剛發芽,人才市場還不那麼成熟。很多公司根據已有的資源和短板,招聘能和現在團隊互補的人才。有的強調統計學知識,有的突出資料庫操作,有的要求演算法程式設計經驗,有的則要求有諮詢公司或者投資銀行相關的經驗,所以“職稱”眾多,諸如資料分析師、資料探勘工程師、大資料分析師、資料工程師等。
針對 SAS、 Tableau、 錢方銀通、民生銀行、和堂科技、星圖資料等公司 的調研,我們瞭解到:一些大的網際網路、金融等公司,及專門的資料公司均設有資料部門,
部門擁有完整的資料採集、資料儲存、資料分析挖掘、資料視覺化等整套體系。而一般的企業多數只需要資料分析師,提供決策輔助和諮詢。所以,繁多的“職稱”背後,萬變不離其宗的是資料相關職位的職能,按照職能我們可以分為四類,對應的專業和職責如表 1 所示:
職業 | 專業要求 | 崗位主要職責 |
[1].資料分析師 | 統計學,數學,計算機,資訊管理 | 運用工具,提取、分析、呈現資料,實現資料的商業意義 |
[2].資料探勘工程師 | 計算機,數學,統計學 | 機器學習,演算法實現 |
[3].資料工程師 | 計算機,數學,統計學 | 開發運用簡單資料工具,實現資料建模等功能,對業務有較好理解 |
[4].資料科學家 | 計算機,數學,統計學 | 高階演算法設計與優化,資料相關係統設計與優化,對行業有較深的理解 |
表 1. 資料分析相關人才職位表
1.1 資料分析師相關職位:
首先,來看下資料分析師的情況。這個職位的主要技能是[1](資料分析) ,附帶[2](資料探勘) ,有少量的[3](運用已有工具建模) 的需求。因為企業對這個職位的要求是作為業務部門的參考與輔助,因此希望是多面手。“職位”包括資料分析專員 /分析師、資料運營主管等。
資料分析師招聘要求樣本如下:
樣本一(美團網) :
招聘崗位:資料分析專員
工作經驗: 1-3 年
月薪範圍:¥6000-8000
學歷要求:本科及以上
崗位職責:負責移動平臺產品的日常資料統計、整理,為產品運營?供日常資料支援;負責移動平臺產品資料分析,定期完成日、周、月、季報等資料包告工作;負責產品資料分析與資料探勘的分析體系的構建;負責使用者調研、及使用者行為分析等資料商業價值挖掘工作;負責資料統計平臺的維護、優化、升級
崗位要求:本科及以上學歷,統計學、應用數學相關專業優先考慮;一年以上網際網路資料分析經驗(移動網際網路優先);具備一定的文件能力,能夠獨立完成資料分析報告的撰寫;具有一定的資料探勘、資料建模能力,能夠熟練使用統計工具軟體者優先;熟練使用 Excel、 PPT 以及相關辦公軟體
樣本二(京東金融):
招聘崗位:資料分析師
工作經驗: 3-5 年
月薪範圍:¥15000-30000
學歷要求:本科及以上
崗位職責:分析與設計業務風險控制規則,建立風險識別、監控與預警機制;建立風險監測指標體系,對業務線進行日常監測與運營分析,提供運營分析報告;對可疑交易/賬戶進行預警分析與問題定位,提供有價值的結果,提高運營有效性;建設業務相關的資料庫表,並能固化到指定的資料庫中,提高查詢效率;建立針對欺詐行為的風險管理策略,構建欺詐行為識別與偵測機制;將研究成果轉化成風控規則並跟進落實,協調產品、研發、運營團隊,推動風控規則與風險模型的實施。最終部署在控制決策系統中;其他工作,參與完成各類分析報告、報表等其他指定的工作
崗位要求:本科及以上學歷,數學、統計、計量經濟學、金融等相關專業優先; 3年以上相關工作崗位經驗,具有支付機構、金融機構、風險管理相關經驗者優先;能夠熟練使用 Hive、 SQL、 R、 SAS、 SPSS 及其他資料查詢統計軟體者優先;曾經參與過完整的資料採集、整理、分析工作;具有一定的交易風險規則設計、風險模型開發經驗;精通 Excel、 PPT、 WORD 等辦公軟體;具備較強的資料分析能力、邏輯思維能力、對內外組織溝通能力、執行能力和團隊精神;有誠信、願意分享和承擔責任,勇於探索與堅持創新。
1.2 資料探勘相關職位:
資料探勘相關崗位更多的分佈在一線城市網際網路、 金融行業,合格的資料探勘工程師通常需要有 3 年以上工作經驗,主要技能為[2](資料探勘) ,有少量的[3](運用已有工具建模) 。
相關招聘要求樣本如下:
樣本一(人人車):
招聘崗位:資料探勘
工作經驗: 1-3 年
月薪範圍:¥15000-30000
學歷要求:本科及以上
崗位職責:負責人人車資料探勘的演算法改進及策略研發;通過資料探勘、機器學習等方法,深刻理解資料本質,進行核心策略的研究及開發;參與和負責資料倉儲基礎設施和平臺的搭建、開發及維護工作;優化資料儲存和計算平臺,確保資料平臺的可靠執行
崗位要求:具有較強分析問題和解決問題能力、良好的團隊合作意識、溝通能力;熟練掌握資料探勘、機器學習相關演算法及工具;熟練使用 Linux 系統,具有非常紮實的資料結構和演算法基礎,至少會寫一門指令碼語言;有文字分析、自然語言處理或者大資料分析工作經驗優先
樣本二(百度):
招聘崗位:資料探勘
工作經驗: 3-5 年
月薪範圍:¥20000-40000
學歷要求:碩士及以上
崗位職責:針對百度知識系產品,開展資料探勘、文字分析、使用者行為建模等工作;深化使用者與內容分類,屬性挖掘以及體系建設;整體?高產品的使用者體驗;跟進業界相關技術進展並進行策略技術到產品的落地
崗位要求:計算機或相關專業碩士以上學歷;良好的邏輯思維能力,能夠從海量資料中發現有價值的規律;良好的團隊合作精神,敢於接受挑戰;精通C\C++,PHP,PYTHON 等至少一門常用語言,對資料結構和演算法設計有較為深刻的理解;熟悉大規模資料探勘、機器學習、自然語言處理、分散式計算等相關技術,並具備實際工作經驗;具有網際網路公司內容挖掘、推薦、檢索相關工作經驗者優先
1.3 資料工程師相關職位:
資料工程師的相關職位名稱相對較多一些。但是總結起來,都是在已有平臺和工具的基礎上實現開發和運用。大部分我們見到的“資料**師”其實都歸屬此類。技能要求為[3](運用已有工具建模) ,其次是[1](資料分析) 和[2](資料探勘) 。以最常見的職稱——資料工程師為例。
相關招聘要求樣本如下:
樣本一(廣發證券):
招聘崗位:資料開發工程師
工作經驗: 3-5 年
1月薪範圍:¥20000-30000
學歷要求:本科及以上
崗位職責:對公司的基礎資料層進行規劃、梳理、優化與擴充套件性開發,範圍涵蓋所有業務資料;公司內外資料的彙集開發、基礎資料層的持續開發與完善;各類業務專案的資料支撐開發、各類資料集市的開發。
崗位要求:計算機、應用數學、資料科學等相關專業;有大型資料倉儲的規劃/開發/分析經驗,熟悉金融資料體系架構,有豐富的資料建模實踐經驗;技術上精通關係資料理論、深刻掌握 SQL 及相關技術,對企業資料模型有深刻的認知和理解;至少掌握: Java、 Python、 Perl 等一門程式語言;能夠積極創新, 樂於面對挑戰, 勇於承擔工作壓力;優秀的團隊合作精神;誠實, 勤奮, 嚴謹,敬業。
樣本二(人人車):
招聘崗位:資料開發工程師
工作經驗: 5-10 年
月薪範圍:¥20000-30000
學歷要求:本科及以上
崗位職責:負責業務資料分析和資料模型設計,設計實現關係型資料庫、資料倉儲、實時資料庫、記憶體資料庫、分散式資料庫和分散式檔案系統等儲存方案,構造最優的資料庫模式,負責設計、評估及稽核,主導開發和實施;與業務方溝通,用資料支援業務,改善運營
崗位要求:超過 5 年以上的資料模型分析設計、資料倉儲建設和資料整合經驗;熟悉大型網際網路產品的架構,對大資料量的網際網路產品有豐富經驗,熟悉大規模資料處理的機制和框架;強 coding 能力;強工程實踐經驗;熟悉 MySQL 等關聯式資料庫。
1.4 資料科學家相關職位:
最後我們來看看資料科學家,這是整個資料產業上的頂端職位。這個職位,要求是[4] (軟體工程技能在多數統計學家之上;高階演算法設計與優化;資料相關係統設計與優化;需要有垂直行業經驗) 。既要懂行業,又要技術資歷(最少 3 年,一般 5-10年),該職位相對上述三種職位來說需求量相對較小,但是空缺量巨大。
企業的招聘要求樣本如下:
樣本一(某知名電商):
招聘崗位:資料科學家
工作經驗: 5 年以上
年薪範圍:¥500000-700000
學歷要求:博士
崗位職責: 規劃和管理全公司資料使用,指導資料工程師構建資料倉儲、分析流程和應用。基於分散式計算系統,處理和分析 PB 級別移動網際網路資料; 應用統計建模和機器學習方法建立模型解決實際問題; 與業務部門溝通合作,將資料模型應用於實際業務; 支援資料的對外發布和合作
崗位要求: 2 年以上資料相關工作經驗 ; 熱愛資料工作,相信資料的價值; 紮實的計算機和數學背景,有機器學習基礎優先; 具有較好的商業敏感度,深入理解資料處理過程和業務場景; 熟練掌握至少一門程式語言,具備分散式計算系統( Hadoop/Spark)開發經驗 ; 擅長與商業夥伴的交流溝通,具有優秀的跨部門協調和溝通能力; 優秀的合作精神和團隊管理能力
樣本二(某大型網際網路金融公司):
招聘崗位:資料科學家
工作經驗: 5 年以上
年薪範圍:¥600000-900000
學歷要求:碩士及以上
崗位職責: 根據具體業務和產品對資料模型進行統一分析和規劃; 深入理解產品業務的方向和戰略,通過資料分析、 挖掘,為產品和運營?供決策支援; 應用統計建模和機器學習方法建立模型解決實際問題; 與業務部門溝通合作,將資料模型應用於實際業務; 指導資料工程師、分析流程和應用
崗位要求: 研究生以上學歷; 紮實的計算機和機器學習背景; 熟練掌握 Python或 Java 等語言; 具有商業敏感度; 深入理解資料處理過程和業務場景; 5 年以上工作經驗
綜上所述,資料相關的職位,指向的是資料採集、資料分析、資料探勘、資料結構四大技能,即使初級職位,要求也是一專多能。高階職位則要求每個模組都有理解,對統計、程式設計、行業理解都要求很高。對分散式系統原理有較深的理解,理解資料庫相關理論及操作;有資料分析和挖掘經驗者優先,有在網際網路公司或海量資料處理工作經驗,有系統開發經驗者優先。
2. 國內資料分析師人才薪資水平
2.1 不同崗位薪資水平比較
從上面的人才結構中,我們大體可以看出資料科學相關人才的薪資待遇平均水平對於其他行來說是較高的。下面我們根據過去幾年的統計觀察, 得到不同崗位的薪資水平, 如下:
圖 3. 不同崗位薪資
上圖顯示,在全國範圍內 ,資料分析師的平均薪資大約為8100元,資料探勘工程師的平均薪資為13900元,資料工程師的平均薪資為13700元,而資料科學家的平均薪資為42000元。
智聯招聘在 2015 年春季釋出的《2015 年春季中國僱主需求與白領人才供給報告》中列出了2015年春季求職期十大高薪職業, 其中前三名分別是高階管理、 IT管理/專案協調、證券/期貨/投資管理/服務,對應薪資分別為13555元、 9450元、 8085元。由此可見,資料分析師崗位的平均薪資排在十大高薪職位裡面的上游水平。未來10年,網際網路將在中國 GDP 增長總量中貢獻 7%到 22%,而移動裝置、雲端計算、自帶裝置辦公、 SNS、大資料將推動整個行業。大資料分析和預測技術人才備受追捧,雲端計算、可穿戴裝置領域人才需求變熱。不僅僅是薪水, 網際網路企業員工持股計劃提速,更多企業強化長期激勵及個性化的福利,而傳統 IT 領域相對式微。
與此同時, 薪資水平隨時間的變化如下圖:
圖 4. 資料相關崗位薪資變化
可以看出, 近幾年資料相關崗位平均薪資的變化。不難看出,2012 年之前,資料相關崗位平均薪資較低,在 6800-8500 之間, 而且每年增長幅度不大。2012年,維克托邁爾舍恩伯的書籍《大資料時代》一書的出版, 標誌大資料時代的到來,大資料的概念也是從2012年開始火熱起來, 更多企業開始意識到資料分析對於企業決策的重要性, 企業對於相關人才需求增加,相應的薪資待遇也逐年增加, 且增加幅度相對之前幾年較高。
2.2 薪資水平的不同維度比較
2.2.1 薪資水平與工作經驗的關係
O’Reilly Media 公司在報告《2014 Data Science Salary Survey》 中指處,根據他們的模型預測,資料相關職位每積累一年的工作經驗,年薪將會增加1400美元左右;對於資料分析師和資料工程師而言, 即使沒有技術等方面的改變,該模型預計他們每年的工資也會增加 2500 美元左右。
在國內 ,資料相關職位薪資亦會隨工作年限的關係,如下圖:
圖 5. 資料相關職位月薪與工作經驗關係
資料相關職位會隨著工作年限的增加而增加,而且工作經驗越豐富,在進入下一階段時的薪資漲幅越大。資料分析專員 一般要求1-3年工作經驗,資料分析師、 資料探勘工程師及資料工程師一般要求3年以上工作經驗,而資料科學家則要求5年以上經驗。
2.2.2 不同應用工具的價值體現
事實上,不止現在資料工程師需求缺口嚴重,根據國外的情況,未來這塊仍有很大缺口 。美國人才招聘市場的資料分析領先者 Wanted Analytics 最近的報告指出,過去幾年大資料相關工作崗位上需求增長最快的三項技能分別是:Python, Linux 和SQL。
反觀國內 ,根據我們做過的一項調查瞭解到,在資料科學相關工具(包括但不限於: 統計學軟體、程式語言、 BI 商業應用、 資料庫、大資料平臺、視覺化軟體、 作業系統)中,使用率最高的 10 種工具是 Windows、 SQL、 Excel、 SPSS、 SAS、 Python、 R、Linux、 Java、 Hadoop。
然而,薪資最高的 5 種工具中, 有四種是大資料相關平臺,分別是 Hbase、 Spark、Pig、 Hadoop,這四種平臺使用者的平均月薪在 13500 元以上; 我們分析,大資料從業者作為資料科學領域的前沿實踐者, 在資料科學領域擁有較強的知識基礎、經驗與能力,通過不斷的學習來?高自己的技術水平,走在領域的前沿,所以相應的也會獲得一份較高的薪水;而 R 軟體由於經常用於資料探勘工作, 所以所對應的使用者的平均薪資也是較高,平均在 10000 元以上。
圖 6. 從業者薪資與使用工具的關係
3. 國內資料分析師人才分佈
易觀智庫在針對大資料市場行業的一項研究報告顯示,2014年中國大資料市場行業投資結構中,金融、通訊、零售為前三大行業,投資佔比分別為 16.0%、 15.6%和 13.9%。
政府、醫療、旅遊投資比例分別為 12.7%、 9.0%和 4.1%。六大行業佔比 71.3%。其他行業包括教育、製造、能源、媒體、網際網路等,累計佔比 28.7%。
圖 7.2014 年中國大資料市場行業應收結構
不過,資料科學相關工作崗位集中分佈在金融、網際網路、通訊三大行業,三大行業提供了近 60%的崗位。尤其是金融和網際網路行業, 前者銀行、網際網路金融類公司對於資料科學相關崗位的需求最多;而後者則由於積累了大量資料,更多價值資訊等待挖掘,所以對於資料科學相關人才有很大的需求,對應的人才分佈相對較多。
在已統計的資料相關企業中,北京、上海、廣東( 主要是深圳) 和浙江( 主要是杭州) 的佔比達 92%,其中北京處於遙遙領先的地位,全國佔比接近 60%;在北京的大資料企業或產品中,海淀區又佔有絕對的優勢地位,佔北京大資料企業的 63%,在全國來看佔比在三分之一左右。
圖 8. 大資料企業地區分佈
包括百度、阿里巴巴、騰訊在內的很多網際網路公司及資料相關企業分佈在北京、上海、 深圳、 杭州等地, 在很大層面上決定這些省份城市的資料相關人才分佈較為集中。
4. 國內資料分析師人才需求
埃森哲的之前的一份報告預測, 2010 年至 2015 年,在發展中國家,分析類專業服務和製藥業將創造出最多的資料科學相關就業機會。而在發達經濟體中,保險和銀行業提供最多的資料科學相關職位。
圖 9.2010-2015 年新增資料科學相關就業機會在調查所覆蓋各國的分佈情況
(注: 黃色的單元格代表了 每個國家新增資料科學相關職位佔比最高的行業)
目前看來,在未來五年,網際網路、金融及醫療行業將會創造大多數的資料科學相關職位。網際網路行業將積累大量的資料,傳統金融行業轉型面臨巨大的資料科學相關職位的缺口;對於醫療行業來說“ 3521 工程”,即建設國家級、省級和地市級三級衛生資訊平臺,加強公共衛生、醫療服務、新農合、基本藥物制度、綜合管理 5 項業務應用,建設健康檔案和電子病歷 2 個基礎資料庫和 1 個專用網路建設,當前全國有數十個個省份在搭建省級的資訊化平臺、 100 多個城市在不同程度上搭建市級平臺,以及區域醫療建設和醫聯體等,都會積累大量的資料,而且未來利用大資料解決醫療問題是面臨的急需解決的問題。
根據對阿里巴巴、星圖資料、錢方銀通、和堂金融等公司的訪談及調研,並根據這些資料做出的預測顯示,到 2018 年,資料分析師的職位空缺將達到近40000人,而且各行各業均會對資料科學相關崗位產生很大的需求。
1. 目前人才職業現狀
目前國內企業招聘的資料分析師這一職業所要求的所有技能,包括統計知識、軟體應用( SPSS/SAS/R 等)、資料探勘、資料庫、報告撰寫、專案經驗等。一名合格的資料分析師需要勝任企業不同層次的資料分析工作。
1.1 資料分析師職業發展方向
概括來說,資料分析師的發展方向主要有三個:政府機關、企業以及各類研究機構。
方向一:政府機關
主要有兩類,第一類是計委、經委、國家及地方統計局等一些經濟綜合管理部門所設定的調研處和研究處。統計部門還分別成立了城市調查組與農村調查組,經常開展社會和市場調查工作,為政府的決策?供支援。第二類是商業、糧食、物資、銀行等經濟主管業務部門設定的資訊中心或調研室,從本系統、本部門的業務出發進行專業性調研,提供支援本部門的市場資訊。
方向二:企業
目前在通訊、網際網路、金融、 零售、旅遊等這些行業每天都會產生巨大的資料量(長期更是積累了大量豐富的資料,比如客戶交易資料等等)。據預測到 2020 年,全球每年產生的資料量將達到 3500 萬億 GB。隨著軟體工具、資料庫技術、各種硬體裝置的飛快發展,使得我們分析海量資料成為可能。而資料分析也越來越受到企業領導層的重視,藉助報表告訴使用者什麼已經發生了,藉助視覺化工具等分析工具告訴使用者為什麼發生了,通過監控告訴使用者現在在發生什麼,通過預報告訴使用者什麼可能會發生。資料分析會從海量資料中?取、挖掘對業務發展有價值的、潛在的知識,找出趨勢,為決策層的?供有力依據,為產品或服務發展方向起到積極作用,有力推動企業內部的科學化、資訊化管理。很多大的企業像百度、 騰訊、聯想、寶潔等都會有專門的資料分析職位。這些職位按分析層級分,有資料調查員、資料分析助理、資料分析專員、專案經理、研究主管、研究經理、研究總監等;按分析內容分,有投資分析、戰略分析、媒介分析、信用分析、網站流量分析、財務分析、客戶分析等。
方向三:研究機構
第三種方向是去專門的研究機構,比如市場研究公司、諮詢公司、證券公司、投資公司、廣告公司、研究院等等。
這些研究機構基本是專門以資料分析為業務,比較重視員工的專業素養的提高,往往會給員工提供參與專案和參加培訓的機會。通過專案和培訓,會高強度地強化從業者的能力,使對方能夠在 2~3 年的時間裡就掌握資料分析的基本流程、方法模型和工具操作, 比較知名的公司有埃森哲、畢馬威、德勤等。
1.2 資料分析師職業生涯發展
1) 資料分析師職位體系:
圖 10. 資料分析職位體系
2) 資料分析師職位層級:
層級 1:助理資料分析師
業務分析能力:
● 在一定的指導下準確識別問題
● 在一定的指導下完成分析規劃
● 提取簡單資料、瞭解分析方法
● 能夠形成報告並傳遞分析結果
● 完成業務需求並?出建議
● 合理分配和安排,完成分析任務
分析方法要求:
● 資料預處理、檢驗和清洗
● 各種常用統計檢驗方法
● 描述述性統計分析
● 對比分析
● 簡單的多元統計分析方法
● 資料庫知識
層級 2:資料分析師
業務分析能力:
● 能夠獨立清晰地識別問題
● 明確範圍並做好分析規劃
● 熟練提取資料並應用分析方法
● 展現演示時條理清晰、邏輯清楚、表達明確
● 能夠提出建議並推動建議被採納
● 作為核心成員控制專案進度和質量
● 推動建議被採納,跨團隊溝通協調
分析方法要求:
● 除助理分析師要求掌握的分析方法之外,還需熟練掌握及應用結構分析、趨勢分析、關聯分析等
層級 3:資深資料分析師
業務分析能力:
● 發現問題並轉化為分析目標
● 提煉問題並做好分析規劃
● 熟練提取資料、指導員工分析資料
● 做演示時結論突出清晰,能夠指導員工
● 能夠提出有效建議,並且獨立主動
● 能夠領導跨部門專案、尋求資源
● 具備一定影響力和判斷力
分析方法要求:
● 與資料分析師相比增加資料探勘模型這一分析方法,例如:迴歸、聚類、因子分析、神經網路、時間序列、關聯規則、決策樹、 支援向量機等
層級 4:資料分析專家
業務分析能力:
● 識別問題並推動解決問題
● 提煉問題並做好分析規劃
● 熟練推取資料並指導員工分析
● 做演示時結論突出清晰,能夠指導員工
● 能夠提出有效建議,並且獨立主動
● 能夠完成影響力大的複雜專案
● 具備較強的影響力和判斷力
分析方法要求:
● 與資深資料分析師相同
層級 5:高階資料分析專家
業務分析能力:
● 思考資料的價值並規劃推進
● 提煉問題並做好分析規劃
● 熟練提取資料、指導員工分析
● 做演示時結論突出清晰,能夠指導員工
● 能夠提出有效建議,並且獨立主動
● 能夠獨立主動完成影響大的複雜專案
● 在公司層面具有影響力
分析方法要求:
● 與資深資料分析師相同
層級 6:資深資料分析專家
業務能力要求:
● 提出對業務發展的前瞻性建議
● 提煉問題並做好分析規劃
● 熟練提取資料、指導員工分析
● 做演示時結論突出清晰,能夠指導員工
● 能夠提出有效建議,並且獨立主動
● 能夠獨立主動完成影響大的複雜專案
● 在專業領域有一定的影響力
分析方法要求:
● 與資深資料分析師相同
3) 資料分析師的級別:
① 資料跟蹤員:機械拷貝看到的資料,處理資料較少
雖然這個工作的人還不能稱作資料分析師,但是往往作這樣工作的人還都自稱是資料分析師,這樣的人,只能通過企業應用的資料系統看到有限的資料,並且很少去處理資料,甚至不理解資料的由來和含義,只是機械地把自己看到的資料拷貝出來,轉發給相應的人。這類人發出來的資料,是否有意義,怎麼解讀,他自己並不清楚。
② 資料查詢員 /處理員:資料處理沒問題,但缺乏資料解讀能力
這些人可以稱為分析師了,他們已經對資料有一定的理解了,對於大部分資料,他們也知道資料的定義,並且可以通過監控系統或者原始的資料,處理得到所需資料。他們精通統計學方法,對統計學的工具用起來也得心應手,能夠勝任因子分析和聚類等問題,在各類檢驗的操作上可稱爐火純青。他們的不足在於:如果不告訴他們命題,那麼他們就不知道該應用什麼樣的方法去得到結論。雖然對於資料的處理沒問題,卻沒有很好的資料解讀能力,只能在統計學的角度上解釋資料。
③ 資料分析師:解讀資料,定位問題?出答案
資料分析師這群人,對於資料的處理已經不是問題,他們的重點則轉化到如何去解讀資料。同樣的資料,在不同人的眼中有不一致的內容。好的資料分析師,是能通過資料找到問題,準確地定位問題,同時準確地找到問題產生的原因,為下一步的改進找到機會點的人。往往科班出身的人,欠缺的不是在處理資料上,而是在解讀資料上。至於將資料和產品結合到一起,則是其更缺少的能力了。
④ 資料應用師:將資料還原到產品中,為產品所用
“資料應用”這個詞很少被?到。但是應用資料被?及的次數很多。分析大量資料之後,除了能找到問題以外,還有很多資料可以還原到產品中,為產品所用。典型的是在電子商務的網站中,使用者的購買資料,檢視資料和操作的記錄,往往是為其推薦新商品的好起點,而資料應用師就是要通過自己的分析,給相應的產品人員一個應該推薦什麼產品,購買的可能性會最大的一個結論。國內能做到這個級別的資料人員目前人數尚少,而真正意義上的能資料應用師,可以用資料讓一個產品變得更加地簡單高效。
⑤ 資料規劃師:走在產品前面,讓資料有新的價值方向
資料規劃師在業務水平上不一定比資料應用師高很多,但卻是另外一個讓資料有價值的方向。因為在實際的應用中,資料往往是有其生命週期的,用來分析和應用的資料也是,這一點在網際網路公司表現得尤為明顯。一個 APP 版本的更新,可能導致之前的所有資料都在一定程度上失效。資料規劃師能夠在一個產品設計之前就已經分析到這個產品應該記錄什麼樣的資料,這些資料能跟蹤什麼問題,哪些記錄到的資料可以應用到 APP 中去,以及這些應用可以對產品產生什麼樣的價值。
2. 資料分析人才學習路徑
2.1 大資料方向學習路徑
1) 基礎課程
● 大資料的 Java 基礎
● 大資料的 Linux 基礎
● 大資料的網路基礎
● Python 網路程式開發
● 大資料的統計學基礎
● 大資料的矩陣計算基礎
● Scala 語言入門
● 大資料的 C++基礎
● 深入 JVM 核心——原理、診斷與優化
● 深入理解 Linux 核心
2) 大資料平臺架構方向
● 搜尋引擎構建與爬蟲技術
● 高併發大資料平臺架構設計
3) Hadoop 方向
● Hadoop 資料分析平臺
● Hadoop 應用開發實戰案例
● Mahout 機器學習平臺
● Hadoop 原始碼導讀
● Hive 資料倉儲實踐
4) Spark 方向
● Spark 大資料平臺
● MLLIB 機器學習平臺
5) NoSQL 方向
● 資料庫引擎開發
● HBase 架構、管理與應用
● MongoDB 架構、管理與應用
● Neo4J 圖資料庫應用實踐
● Redis 實戰
● Nodejs+MongoDB 快速開發實戰
6) 虛擬化方向
● Openstack 雲系統
● Cloudstack 雲系統
● 雲桌面實戰
7) 高效能運算方向
● CUDA 從入門到精通
● MPI 平行計算框架
8) 流資料實時分析方向
● Storm 資料實時分析平臺
2.2 資料探勘方向
資料探勘的含義:
資料探勘(Data Mining) 就是從大量資料中發現潛在規律、提取有用資訊的方法和技術。因為與資料庫密切相關,又稱為資料庫知識發現(Knowledge Discovery in Databases, KDD) ,就是將高階智慧計算技術應用於大量資料中,讓計算機在有人或無人指導的情況下從海量資料中發現潛在的,有用的模式(也叫知識)。
廣義上說,任何從資料庫中挖掘資訊的過程都叫做資料探勘。從這點看來,資料探勘就是 BI(商業智慧)。但從技術術語上說,資料探勘(Data Mining) 特指的是:源資料經過清洗和轉換等成為適合於挖掘的資料集。資料探勘在這種具有固定形式的資料集上完成知識的?煉,最後以合適的知識模式用於進一步分析決策工作。從這種狹義的觀點上,我們可以定義:資料探勘是從特定形式的資料集中提煉知識的過程。
資料探勘往往針對特定的資料、特定的問題,選擇一種或者多種挖掘演算法,找到資料下面隱藏的規律,這些規律往往被用來預測或支援決策。
資料探勘的主要功能
1) 分類:按照分析物件的屬性、特徵,建立不同的組類來?述事物。例如:銀行部門根據以前的資料將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以採取相應的貸款方案。
2) 聚類:識別出分析對內在的規則,按照這些規則把物件分成若干類。例如:將保險申請人區分為高度風險申請者,中度風險申請者,低度風險申請者。
3) 關聯規則和序列模式的發現:關聯是某種事物發生時其他事物隨之發生的這樣一種聯絡。例如:每天購買啤酒的人也有可能購買香菸,比重有多大,可以通過關聯的支援度和可信度來?述。與關聯不同,序列是一種縱向的聯絡。例如:今天銀行調整利率,明天股市的變化。
4) 預測:把握分析物件發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展增速的判斷。
5) 偏差的檢測:對分析物件的少數的、極端的、特例的?述,以揭示其內在的原因。例如:在銀行的 100 萬筆交易中有 500 例欺詐行為,銀行為了穩健經營,就要找出這 500 例欺詐行為的內在因素,減小以後的經營風險。
需要注意的是:資料探勘的各項功能不是獨立存在的,它們在資料探勘中互相聯絡,共同發揮作用。
資料探勘的方法及工具 :
作為一門處理資料的新興技術,資料探勘有許多的新特徵。首先,資料探勘面對的是海量的資料,這也是資料探勘產生的原因。其次,資料可能是不完全的、有噪聲的、隨機的,或者有複雜的資料結構、維數大。最後,資料探勘是許多學科的交叉運用,它綜合了統計學、電腦科學、數學等學科的技術。以下是常見和應用最廣泛的演算法和模型:
1) 傳統統計方法:
① 抽樣技術:通常在資料探勘的過程中我們面對的是大量的資料,對所有的資料進行分析是不可能的也是沒有必要的,因此需要在理論的指導下進行合理的抽樣。
② 多元統計分析:如因子分析、聚類分析等。
③ 統計預測方法:如迴歸分析、時間序列分析等。
2) 視覺化技術:用圖表等方式把資料特徵用直觀地表述出來,如直方圖等,這其中會運用許多?述統計的方法。視覺化技術面對的一個難題是高維資料的視覺化。
資料探勘的具體流程
第一步:資料準備:( 70%時間)
● 獲取資料(爬蟲,資料倉儲)
● 驗證資料
● 資料清理(缺失值、孤立點、垃圾資訊、規範化、重複記錄、特殊值、合併資料集)
● 使用 python 進行檔案讀取 csv 或 txt 便於運算元據檔案( I/O 和檔案串的處理,逗號分隔)
● 抽樣(大資料時。關鍵是隨機)
● 儲存和歸檔
第二步:資料觀察(發現規律和隱藏的關聯)
● 單一變數:點圖、抖動圖;直方圖、核密度估計;累計分佈函式
● 兩個變數:散點圖、 LOESS 平滑、殘差分析、對數圖、傾斜
● 多個變數:假色圖、馬賽克圖、平行左邊圖
第三步:資料建模
● 推算和估算(均衡可行性和成本消耗)
● 縮放引數模型(縮放維度優化問題)
● 建立概率模型(二項、高斯、冪律、幾何、泊松分佈與已知模型對比)
第四步:資料探勘
● 選擇合適的機器學習演算法(蒙特卡洛模擬,相似度計算,主成分分析)
● 大資料考慮用 Map/Reduce
● 得出結論,繪製最後圖表
資料探勘方向職業能力要求
1) 基本能力要求
資料探勘人員需具備以下基本條件,才可以完成資料探勘專案中的相關任務:
① 專業技能
● 碩士以上學歷,資料探勘、統計學、資料庫相關專業,熟練掌握關聯式資料庫技術,具有資料庫系統開發經驗
● 熟練掌握常用的資料探勘演算法
● 具備數理統計理論基礎,並熟悉常用的統計工具軟體
② 行業知識
● 具有相關的行業知識,或者能夠很快熟悉相關的行業知識
③ 合作精神
● 具有良好的團隊合作精神,能夠主動和專案中其他成員緊密合作
④ 客戶關係能力
● 具有良好的客戶溝通能力,能夠明確闡述資料探勘專案的重點和難點,善於調整客戶對資料探勘的誤解和過高期望
● 具有良好的知識轉移能力,能夠儘快地讓模型維護人員瞭解並掌握資料探勘方法論及建模實施能力
2) 進階能力要求
資料探勘人員具備如下條件,可以?高資料探勘專案的實施效率,縮短專案週期:
● 具有資料倉儲專案實施經驗,熟悉資料倉儲技術及方法論
● 熟練掌握 SQL 語言,包括複雜查詢、效能調優
● 熟練掌握 ETL 開發工具和技術
● 熟練掌握 Microsoft Office 軟體,包括 Excel 和 PowerPoint 中的各種統計圖形技術
● 善於將挖掘結果和客戶的業務管理相結合,根據資料探勘的成果向客戶提供有價值的可行性操作方案
資料探勘方向應用及就業領域:
當前資料探勘的應用主要集中在電信(客戶分析)、零售(銷售預測)、農業(行業資料預測)、網路日誌(網頁定製)、銀行(客戶欺詐)、電力(客戶呼叫)、生物(基因檢測)、天體(星體分類)、石油化工、醫藥健康等行業領域。目前它能為企業解決的典型問題主要是:資料庫營銷 (Database Marketing) 、客戶群體劃分(Customer Segmentation & Classification) 、背景分析(Profile Analysis) 、交叉銷售(Cross-selling) 等市場分析行為,以及客戶流失性分析(Churn Analysis) 、客戶信用記分(Credit Scoring) 、欺詐發現(Fraud Detection) 等等。資料探勘已經在許多領域得到了成功的應用。例如,當你訪問著名的亞馬遜網上書店(www.amazon.com) 時,會發現當你選中一本書後,會出現相關的推薦書目“買了這本書的顧客也購買了其他的書” (Customers who bought this book also bought) ,這背後就是資料探勘技術在發揮作用。
資料探勘的物件是某一專業領域中積累的資料,其挖掘過程是一個人機互動、多次反覆的過程,挖掘的結果要應用於該專業。因此資料探勘的整個過程都離不開應用領域的專業知識。“ Business First, technique second”是資料探勘的特點。因此學習資料探勘不意味著丟棄原有專業知識和經驗。相反,有其它行業背景是從事資料探勘的一大優勢。如有銷售、財務、機械、製造、客戶中心(call center) 等領域的工作經驗,通過學習資料探勘,可以提升個人職業層次,在不改變原行業的情況下,個人的職業發展可以從原來的事務型角色向分析型角色轉變。從上世紀 90 年代末的初露頭角到近十幾年的廣泛應用,以資料探勘為核心的商業智慧(BI) 已經成為 IT 行業及其它傳統行業中的一個新寵。
2.3 業務決策方向
1) 資料為王,業務是核心
● 瞭解整個產業鏈的結構
● 制定業務的發展規劃
● 確定用以衡量的核心指標
無論在哪個行業裡,巨量的資料必須和業務分析相結合才能為企業帶來收益。在應用資料分析進行業務決策時,首先需要摸清楚所在企業產業鏈的完整結構,以期對行業的上游及下游的經營情況有一個大致瞭解。然後根據當前的業務需要,制定處發展計劃,再由此歸類得出需要整理的資料。最後在進行業務分析時需要詳細地列出資料核心指標(KPI) ,並且對幾個核心指標進行更細緻的拆解,同時要具體結合相應的業務屬性來處理,從而找出那些對指標影響幅度較大的影響因子。另外,前期的資料收集工作以及業務現狀的全面掌握也非常關鍵。
2) 思考指標現狀,發現多維規律
● 熟悉產品框架,全面定義每個指標的運營現狀
● 對比同行業指標,挖掘隱藏的提升空間
● 拆解關鍵指標,合理設定運營方法來觀察效果
● 針對核心使用者,單獨進行產品用研與需求挖掘
在進行業務分析時,發現規律不一定需要很高深的程式設計方法,或者複雜的統計公式,更重要的是培養一種感覺和意識。不能用個人感覺去揣測使用者的感覺,因為每個人的教育背景、生活環境都不一樣。很多資料元素之間的關係沒有明顯的顯示,需要運用直覺與觀察,最終以資料視覺化技術來呈現。
3) 規律驗證,經驗總結
在進行模型分析時,發現了某些規律之後不能立刻上線,需要在測試機上對模型進行驗證。與此同時,數學建模能力對培養數感以及最後的業務決策也有一定的幫助。
3. 總結
資料科學相關人才不再侷限於理工背景,一個完備的資料科學相關人才需要具備多領域的知識和經驗, 包括一些跟數學相關的知識, 接下來是跟統計相關的,然後是跟程式設計相關的。 作分析的時候會用很多工具,這些工具都有一個基本的假設,當資料量大到一個程度,可以通過程式設計的方式來對資料進行處理, 當然處理完以後,接下來這個工作可以交給工具來做。但是有時候工具有一些侷限性,這時候我們要看跟程式設計相關的能力, 所以如果不是計算機專業出身,也有必須學一下程式設計,將來才不會在某些領域知識感覺到困難。
另外, 大量套用工具和套用現成的軟體,當發現有些問題是當今工具沒有辦法解決的時候, 懂得原始的演算法顯得尤為重要,它的基本原理是什麼,為什麼它沒有辦法解決這個問題, ……, 資料科學相關工作者可以改變原來的想法,想出一個新的辦法,甚至設計新的演算法。資料科學從業者經常在考慮如何解決目前工具沒有辦法解決的問題, 所以要有比較強的背景,因為沒有一個演算法是完美的。
還有, 資料科學相關人才需要具備文字勘探的技能, 大資料時代面對海量資料,資料視覺化顯得很重要。 工作中經常遇到的問題是常常產生一大堆報表,但是視覺化其實可以做的更好, 我們可以用一張報表去取代多張報表,這樣會使工作效率和工作產出率大大提高。
經管之家(原人大經濟論壇, 詳見附錄 1. )“資料分析培訓中心”自 2006 年成立以來,致力於開展統計軟體、資料分析和資料探勘的培訓與諮詢服務,目前已有專家、講師團隊 100 多位,擁有自主版權的視訊課程 100 多門,每年開設現場培訓班 40餘場,建立了完備的資料分析培訓課程體系,每年培訓學員 3000 多人。服務過的企業包括中國電子商務中心、招商銀行、中國人民銀行、中國郵政儲蓄、中信銀行、中國聯通、中國移動、中國電信、艾瑞諮詢、東芝醫療繫統(中國)有限公司、攜程旅行網、中國證券金融公司、北京鐵路局代收款清算中心、南京梅鋼等機構。這對國內資料分析師人才的培養和貢獻毋庸置疑。
1. 考試簡介
2013 年 7 月,經管之家(原人大經濟論壇)聯合大陸、臺灣、美國等地學者、企業專家,在美國特拉華州推動成立“ CDA 註冊資料分析師協會”,致力於行業研究和探討資料分析人才培養標準,以滿足企業對資料分析人才日益增長的需求,促進資料分析行業的高質量持續快速發展。 CDA 資料分析師等級標準來源於 CDA 協會成員長年從事資料分析教育與工作的經驗和實踐,對資料分析行業的研究,對資料分析教育的不斷完善開發,從而總結出來的一套專業化,科學化,規範化,系統化的標準來認證什麼樣的人才是合格的 CDA 資料分析師。 CDA 資料分析師證照在國內需通過經管之家( 原人大經濟論壇)舉辦的 CDA 等級認證考試後獲得。此證照可作為企業事業單位選拔和聘用專業人才的任職參考依據。
1.1 CDA 等級認證考試
CDA Level Ⅰ: 業務資料分析師。專指政府、金融、電信、零售等行業前端業務人員;從事市場、管理、財務、供應、諮詢等職位業務人員;非統計、計算機專業背景零基礎入行和轉行就業人員。 CDA Level Ⅰ業務資料分析師需要掌握概率論和統計理論基礎,能夠熟練運用 Excel、 SPSS、 SAS 等一門專業分析軟體,有良好的商業理解能力,能夠根據業務問題指標利用常用資料分析方法進行資料的處理與分析,並得出邏輯清晰的業務報告。
CDA Level Ⅱ: 建模分析師。兩年以上資料分析崗位工作經驗,或通過CDA Level Ⅰ認證半年以上。專指政府、金融、電信、零售、網際網路、電商、醫學等行業專門從事資料分析與資料探勘的人員。在 Level Ⅰ的基礎上更要求掌握多元統計、時間序列、資料探勘等理論知識,掌握高階資料分析方法與資料探勘演算法,能夠熟練運用 SPSS、 SAS、 Matlab、 R 等至少一門專業分析軟體,熟悉適用 SQL 訪問企業資料庫,結合業務,能從海量資料?取相關資訊,從不同維度進行建模分析,形成邏輯嚴密能夠體現整體資料探勘流程化的資料分析報告。
CDA Level Ⅱ: 大資料分析師。 兩年以上資料分析崗位工作經驗,或通過CDA Level Ⅰ認證半年以上。專指政府、金融、電信、零售、網際網路、電商、醫學等行業專門從事資料分析與雲端大資料的人員。在 Level Ⅰ的基礎上要求掌握 JAVA語言和 linux 作業系統知識,能夠掌握運用 Hadoop、 Spark、 Storm 等至少一門專業大資料分析軟體,從海量資料中提取相關資訊,並能夠結合 R、 python 等軟體,形成嚴密的資料分析報告。
CDA Level Ⅲ: 資料分析專家。五年以上資料分析崗位工作經驗,或通過二級認證半年以上。專指從事各行業、企業整體資料資產的整合、管理的專業人員,面向使用者資料創造不同的產品與決策,一般指首席分析師( CA)。資料分析專家需要掌握CDA Level Ⅱ的所有理論及技術要求,還應瞭解計算機技術,軟體開發技術,大資料分析架構及企業戰略分析方法, 能帶領團隊完成不同主題資料的有效整合與管理。對行業、業務、技術有敏銳的洞察力和判斷力,為企業發展提供全方面資料支援。
1.2 CDA 等級認證考試招生物件及報考條件:
專業不限,但擁有本科學歷或相當的專業水準(工作經驗)
Level Ⅰ: (滿足以下之一皆可報名)
(1) 擁有本科及以上學歷或在校本科大四學生
(2) 本科以下學歷非學生需從事資料分析相關工作 1 年及以上
Level Ⅱ: (滿足以下之一皆可報名)
(1) 獲得 CDA Level Ⅰ認證半年以上
(2) 本科及以上學歷並從事資料分析相關工作 2 年以上
(3) 本科以下學歷需從事資料分析相關工作 3 年以上
Level Ⅲ: (滿足以下之一皆可報名)
(1) 獲得 CDA Level Ⅱ認證 1 年以上
(2) 本科及以上學歷並從事資料分析相關工作 5 年以上
(3) 本科以下學歷需從事資料分析相關工作 6 年以上
說明:上述資料分析相關工作不限制行業,工作涉及統計,資料分析,資料探勘,資料庫,資料管理等內容即可。
2. 為什麼選擇 CDA 等級認證考試?
CDA 註冊資料分析師協會會員是來自學界、實務界,國內大陸、臺灣及國外資料分析和資料探勘相關領域頂尖的教授、專家、工程師及企業高階人才,代表了國內資料分析研究領域的一定水平。 CDA 資料分析師等級標準是根據國內各大企業對人才技術的需求而設立,旨在為國內資料分析發展階段提供一個科學、專業的標準規範,說明究竟什麼人才是優秀的資料分析師。
CDA 資料分析師的就業前景可選擇於通訊、醫療、銀行、證券、保險、製造、商業、市場研究、科研、教育等多個行業和領域。根據三個不同的等級勝任不同的資料分析工作任務。
3. 如何成為一名 CDA 資料分析師?
CDA 資料分析師 LEVEL Ⅰ、Ⅱ、 Ⅲ系統培訓,由人大經濟論壇根據 CDA 協會認證標準而設立的一套針對資料分析師技能的全面系統培訓。培訓師資目前均來自學界、實務界相關領域的講師、教授、專家、工程師以及企業資深分析師,名師薈萃,代表了國內資料分析培訓的最高水平,可以很好地保證培訓的學員既能學到紮實的資料分析理論知識,又能具備較強的利用軟體解決實際問題的能力,保證學員能勝任各行業資料分析師工作的要求。學員可以參加“ CDA 資料分析師 LEVEL Ⅰ系統培訓”或“ CDA資料分析師 LEVEL Ⅱ、Ⅲ系統培訓”進行深入學習。
經管之家( 原人大經濟論壇)於每年 6 月和 12 月舉辦 CDA 資料分析師考試。 通過考試後即可獲得 CDA 資料分析師等級資格認證證照,後續可參加 CDA 線下聚會、沙龍、招聘會、研討會等各項活動,促進資料分析師領域的高效發展。
4. 人大經濟論壇 CDA 優勢
經管之家(原人大經濟論壇),於 2003 年成立於人大經濟學院,致力於推動經濟學科的進步,傳播優秀教育資源,目前已經發展成為國內最大的經濟、管理、金融、統計類的線上教育和諮詢網站,也是國內最活躍和最具影響力的經管類網路社群。
經管之家運營團隊:北京國富如荷網路科技有限公司,成立於 2006 年 6 月,公司以人大經濟論壇為運營平臺,經營業務包括培訓業務、資料處理和分析服務和教輔產品等。發展至今,經管之家 “資料分析培訓中心” 已經成為最具影響力和知名度的資料分析培訓機構,一直努力做到:將資料分析變成一門常識,讓統計軟體成為學術研究的好夥伴,企業經營的好軍師。經管之傢俱有如下優勢:
優勢一:師資
CDA 資料分析師系統培訓,由經管之家根據 CDA 協會認證標準而設立的一套針對資料分析師技能的全面系統培訓。培訓師資目前均來自學界、實務界相關領域的講師、教授、專家、工程師以及企業資深分析師,名師薈萃,代表了國內資料分析培訓的最高水平,可以很好地保證培訓的學員既能學到紮實的資料分析理論知識,又能具備較強的利用軟體解決實際問題的能力,保證學員能勝任各行業資料分析師工作的要求。CDA 資料分析師培訓注重結合實際,把最具技術含量、最具價值理念的課程傳授給學員。課程還注重啟發式教學,讓學員在動手解決問題中去學習。
CDA 資料分析師課程的大綱和內容,既由經管之家和國內資料分析、資料探勘領域專家潛心開發和反覆研究,又經過科學的調研確定,並且將不斷地隨著資料分析的市場需求和資料分析技術的發展而調整,課程內容始終關注市場、關注前沿。課程內容的設計更注重階梯化、體系化的原則,每一個學員,不論學習和工作的背景如何,都能在該課程體系中很快找到適合自己的課程,並不斷學習提高。
優勢二:繼續學習
所有 CDA 學員除了學習現場課程之外,還會得到全程視訊錄影及輔助學習視訊課程(包括 SPSS、 SAS、 R 語言等軟體資料分析、 挖掘等內容),此係列視訊課程可以進行後期鞏固學習和進修學習,可紮實現學技能、擴充課餘知識、昇華技術層級。
優勢三:線上學習
Peixun.net(經管之家線上課堂)學習視訊可實現隨時隨地線上聽課, 10 分鐘一小節,可進行個性化、碎片化學習,更具針對性與便利性。 CDA 上課方式分為現場及遠端兩種方式,遠端線上學習引進了最新裝置與技術,解決了各地區學員的需求,並實現瞭如同現場般的遠端答疑及討論。
優勢四:交流社群
經管之家有十二個社群,七百個版塊,六百多萬會員。每日討論的熱點話題及資料以千計。學員在學後可以到“ CDA 資料分析師”版塊進行交流、提問、下載資料等,
形成資料分析專業聚集地,促進學員在圈子交流中高效發展。
可以說, CDA 資料分析師等級培訓代表了資料分析行業的前沿培訓教育技術、水平。 對於人才培養積累了很深的資源、 經驗、口碑,所培養的學員 絕大多數具備了 較高的技術水平和素質。 並且, 經管之家憑藉自身多年的積累,不僅在學術上有很深的造詣,而且與眾多企業建立了很深的聯絡,並且不定期向企業推薦相關學員 ,並獲得企業的一致認可。
1. 優勢、劣勢
1.1 資料分析行業的優勢
資料科學的運用領域廣泛,資料分析技術可用於各個行業,因而各行各業都有進行資料分析從而進行科學決策的需求,資料科學的價值正逐漸被認識和承認。資料科學相關人才能夠將分析法模型和演算法的結果與特定的商業知識相結合,從而產生洞見並做出決策;同時, 他們可以根據業務需要更直接地應用建模並進行統計分析,將技術語言轉化成企業其他部門可以理解的內容。 資料分析行業的社會價值越來越受到認可。
據全球最具權威的 IT 研究與顧問諮詢公司高德納( Gartner)預測,到 2016 年,大資料將在全球建立 440 萬個工作崗位,其中有 190 萬個工作崗位在美國。但是,目前擁有資料分析技能的專業人員嚴重短缺,只有三分之一的新工作崗位能招聘到人員。
美國面臨嚴重的分析法人才短缺, 資料科學家的供應比例僅為 23%, 從而導致近40000名人才的缺口 。在中國,能理解與應用大資料的創新人才更是稀缺資源。美國和其他經濟體以及中國所面臨的人才短缺的現象不能僅僅通過研究生和畢業生的湧入填補這一空白,培訓相當數量的資料分析人才是相當必要的。
埃森哲在近期的一項面向企業高管的調查中發現, 對於問題“哪些工具和能力對於在新領域實現增長而言是最重要的? ”,中國企業高管中有 63%的比例認為是資料分析技術,而且這一技術與社交網路技術及移動計算/應用開發技術並列第一, 如下:
圖 11. 埃森哲面向企業高管調查
資料分析行業在國外發展已經很成熟了,隨著我國經濟發展與已開發國家的距離縮短,技術力量的加強,及產業結構的完善,我國對於資料分析進行科學決策的依賴度會越來越高,相應的對於專業工作者的需求亦會增高。
1.2 資料分析行業的劣勢
目前資料分析行業的劣勢主要體現在以下幾個方面:
首先,資料分析行業仍處於發展階段,行業規模不大,行業規章制度與基礎設施還不完善,這造成技術運用與人才培養在一定程度上略顯緩慢, 不利於行業的快速、穩健發展。
其次,從業人員相關技能還需要進一步?高,包括對於公司業務的理解能力,資料科學專業技能等,從而能夠形成行業競爭壁壘,促進行業社會認可度。
2. 展望
大資料將迎來發展黃金期,資料分析行業將迎來社會的廣泛認可,資料科學人才的需求將迎來新的井噴期。
首先,資料分析行業具有廣闊的市場前景。近年來,網際網路、 電子商務、 網際網路金融、醫療等行業的迅速發展,行業規模不斷擴大, 資料量不斷增加,對於資料隱含的價值分析挖掘的需求越來越大,職位機會不斷增加, 從業人員相應的待遇也隨之上漲。中國企業高管堅信數字技術的力量,必將促進數字行業的發展,相應的對技術方面的人才需求將會增加。
其次,資料分析行業受益於國家政策支援(詳見附錄 2.)。自2014年3月 將“ 大資料” 首次寫入《政府工作報告》 以來,中國國務院總理李克強在多個場合提及這一“熱詞” ; 2015 年 4 月,全國首個大資料交易所——貴陽大資料交易所正式掛牌運營,並完成首批大資料交易;根據貴陽市出臺的《關於加快推進大資料產業發展的若干意見》,提出力爭到 2017 年在貴陽市建成全球首個塊上集聚的大資料公共平臺,貴陽市大資料產業的總量規模突破 2000 億元,貴陽大資料交易所預計,未來 3-5 年每天交易量達到 100 多億元。政府引導大資料產業健康發展,在資訊消費和資料產業發展上提供積極的政策支援, 把大資料轉換成真正意義的資產,讓大資料資產在全球範圍流通,併產生價值, 對於缺乏獲得優質資料的民營企業、小微企業、 創業者都是巨大機遇;同時,大資料作為一種商品, 可交易可流通,將對網際網路、金融、傳統產業構成深遠影響,從資訊消費到資料消費的轉變。
2015 年8月19日 , 國務院常務會議通過《關於促進大資料發展的行動綱要》。會議認為,開發應用好大資料這一基礎戰略資源,有利於推動大眾創新、萬眾創新,改造升級傳統產業,培育經濟發展新引擎和國際競爭新優勢。 綱要強調, 一要推動政府資訊系統和公共資料互聯共享,消除資訊孤島,加快整合各類政府資訊平臺,避免重複建設和資料“打架”, 增強政府公信力,促進社會信用體系建設。優先推動交通、醫療、 就業、 社保等民生領域政府資料向社會開放,在城市建設、社會救助、質量安全、社群服務等方面開展大資料應用示範,?高社會治理水平。 二要順應潮流引導支援大資料產業發展, 以企業為主體、以市場為導向,加大政策支援, 著力營造寬鬆環境,建立市場化應用機制, 深化大資料在各行業創新應用, 催生新業態、新模型,形成與需求緊密結合的大資料產品體系, 使開放的大資料成為促進創業創新的新動力。三要強化資訊保安保障,完善產業標準體系,依法依規打擊資料濫用、 侵犯隱私等行為。 讓各類主體公平分享大資料帶來的技術、制度和創新紅利。
當前中國在大資料應用方面的技術已經成熟,而完善政策導向和法律法規才是關鍵,此次綱要中明確了政府和市場的職責,為接下來進一步細化措施的出臺打下了堅實基礎, 為大資料發展創造更有利的壞境。
2015 年 8 月 31 日 國務院釋出了《促進大資料發展行動綱要》( 以下簡稱《綱要》),這無異於對目前蓬勃發展但又面臨不確定性的資料分析行業吃了一個安心丸。俗話說巧婦難為無米之炊, 在資料分析行業,資料就是基礎。 以往資料分析中資料質量一直是瓶頸, 尤其是各方面基礎資料匱乏、可信度低等問題一直困擾著分析師。
《綱要》 明確指出“講加快政府資料開放共享,推動資源整合,提升治理能力”。明確指出在 2017 年底前,明確各部門資料共享的範圍邊界和使用方式,跨部門資料資源共享共用格局基本形成。到 2018 年,中央政府層面實現資料統一共享交換平臺的全覆蓋,資訊系統通過統一平臺進行資料共享和交換。 2020 年底前,逐步實現信用、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、資源、農業、環境、安監、金融、質量、統計、氣象、海洋、企業登記監管等民生保障服務相關領域的政府資料集向社會開放。這樣的承諾令資料分析行業的從業人員歡欣鼓舞。 為了使資料分析師行業得到更好的發展,資料分析師內部也達成了如下共識,作為對《綱要》的響應。
1. 知識分享氛圍的培養
知識是科技發展的動力,知識分享對促進社會發展有這正面積極的意義。資料分析的直接產品就是知識,因此資料分析師在知識分享中有著重要的價值。雖然很多知識以專利的形式存在,不便於分享。但是一些基礎性知識,比如分析技能的培養、經典商業案例等應該廣泛普及與擴散。
2. 人才培養體系的建立
很多商業分析師在工作中發現,高校畢業生需要 1-3 年時間才可以轉變為一個合格的商業分析師。這使得一些企業面臨高額的人才培養成本,尤其是初創類公司,還要面臨成材率低和人員流失嚴重的雙重壓力。究其原因,是高校在資料分析人才培養方面還沒有建立起一套與商業接軌的體系。 由於學科的限制,目前高校沒有一套完善的針對於資料分析人才的培養方案。由於商業資料分析踐性強,學校老師的考核多以科研能力為主,因此學校教師存在著能力偏差。雖然部分高校已經注重外部導師專案的發展,但是體系化不強,個人的作用有限。因此,亟需商業資料分析師內部合作,從實戰方面建立起人才培養體系,以滿足商業界對資料分析人才的需求。這類事情在國外比較普遍,比如註冊金融分析師( CFA),管理會計師( CMA),這些都是從業人員自己建立起來的人才培養體系,極大的促進了本行業的發展。但是,國內外針對於資料分析師的人才培養體系很少,這更需要本行業從業人員共同合作,為本行業發展積極出力。
3. 從業人員自律文化的形成
資料分析是一個過程高度不透明,而且驗證結果的成本很高,因此分析師的自律極為重要。分析師自律文化的核心是誠信。以往的學校教育以成果為導向,而且資料分析師多是畢業生中成績優異的,因此多是積極進取的學生。進取心強是優點,但是過分強調成果,忽略誠信,會造成嚴重的經濟後果。目前學術造假行為比比皆是,學術上這種行為影響雖然惡劣,但是不會造成直接的經濟後果。商業資料分析的特點是成功率低,必須經歷長時間反覆測試才可以得到有商業實踐意義的成果,如果不講誠信,急於求成,會給企業未來帶來嚴重的經濟損失。因此資料分析師行業內部需要建立起一套從業人員的資訊共享體系, 培養從業人員的自律意識。
《綱要》指出到 2020 年,培育 10 家國際領先的大資料核心龍頭企業, 500 家大資料應用、服務和產品製造企業。而且注重市場在大資料發展中的重要地位。誠然,大資料產業是智慧產業,基於的是可再生的智力與資料,不存在天然壟斷的基礎。合作是取得多方共贏的基礎, 而阻礙知識分享與人才培養的任何自私的行為都是與國家政策有違的,也損害了本行業從業人員的共同利益。
附錄 1. 經管之家(原人大經濟論壇)發展歷程
2006年,人大經濟論壇資料分析培訓中心設立,至今經歷9個春秋,建立了大陸、臺灣一線師資團隊,培養人才已達3萬餘人;
2013年,CDA資料分析研究院成立,CDA資料分析師課程第一次走進大家的視野,截至到現在,累計培養1200多名專業CDA資料分析師;
2013年,“中國資料探勘與資料分析俱樂部CDMC”在人大經濟論壇旗下成立,2014年改名為“中國資料分析師俱樂部CDA”。來自政府、金融、電信、零售、電商、網際網路、教育等行業人士加入會員,累積了近1000名行業資深會員,成功舉辦了近二十場行業聚會;
2015年,CDA就業學院成立,響應國家職業教育人才培養的號召,與企業對接,在全國高校培養資料分析專業人才。截至到目前,幫助在200多個高校成立了大資料俱樂部和興趣小組。
附錄2. 國內重要大資料相關政策行動梳理
時間 | 部門 | 政策行動名稱 | 政策行動詳情 |
2012年7月 | 國務院 | 《“十二五”國家戰略性新興產業發展規劃》 | 明確提出支援海量資料儲存、處理技術的研發和產業化。 |
2013年7月 | 重慶 | 《重慶市大資料行動計劃》 | 2017 年將大資料產業培育成全市經濟發展的重要增長極。 |
2013年7月 | 上海 | 《上海推進大資料研究與發展三年行動計劃(2013-2015年)》 | 資料硬體及大資料軟體產品具備產業核心競爭力。 |
2013年8月 | 國務院 | 《關於促進資訊消費擴大內需的若干意見》 | 推動商業企業加快資訊基礎設施演進升級,增強資訊產品供給能力,形成行業聯盟,制定行業標準,構建大資料產業鏈,促進創新鏈與產業鏈有效嫁接。 |
2014年2月 | 貴州 | 《關於加快大資料產業發展應用若干政策的意見》 | 打造大資料產業發展應用新高地,建成全國領先的大資料資源中心和大資料應用服務示範基地。 |
2015年3月 | 國務院 | 制定“網際網路+”行動計劃 | 推動移動網際網路、雲端計算、大資料、物聯網等與現代製造業結合,促進電子商務、工業網際網路和網際網路金融健康發展,引導網際網路企業擴充國際市場。 |
2015年4月 | 發改委 | 《創新投資管理方式建立協同監管機制的若干意見》 | 提出運用網際網路和大資料的技術來創新監管的方式 。 |
2015年5月 | 工信部 | 將編制實施軟體和大資料產業“十三五”規劃 | 大資料產業第一次明確出現在規劃中。 |
2015年6月 | 國家資訊中心 | 聯合深圳大學成立深圳大資料研究院 | 致力於充分融合雙方優勢,打造大資料領域新型創新載體,推動我國大資料技術、人才與產業化發展。 |
2015年6月 | 工信部 | 加快推進雲端計算與大資料標準體系建設 | 將加快雲端計算與物聯網、移動網際網路、現代製造業的融合發展與創新應用,積極培育新業態、新產業,加快推進雲端計算與大資料標準體系建設。 |
2015年 7月 | 國務院 | 《關於運用大資料加強對市場主體服務和監管的若干意見》 | 運用大資料加強對市場主體服務和監管,明確時間表 |
2015年 8月 | 國務院 | 《促進大資料發展行動綱要》 | 健全大資料市場發展機制,建立標準規範體系 |
經管之家,原人大經濟論壇, 2004 年創立, 歷經十多載成為國內最大、最具影響力的經濟、管理、金融、統計類的線上教育網站社群。在經管教育領域具有極強的品牌號召力!註冊會員數量逼近 700 萬( 2015 年 10月),平均日增 3000 新會員,日均訪問人數(UV)40 萬以上,日均發帖量為 15000,微信使用者 23 萬以上;現有100多個欄目(版塊),內容涵蓋經管資源分享、學術交流、提問學習、釋出專案、考研考博等經管類學習的必備資源,同時為經管學習者題供求職招聘、線上教育、財經新聞等全方位服務,打造優質的經管人生態閉環,是眾多經管學習的首選線上學習平臺。
CDA 資料分析師品牌,是經管之家(原人大經濟論壇)積累十多年的資料分析培訓經驗,打造的一套針對資料分析師技能的全面系統培訓。培訓師資目前均來自學界、實務界相關領域的講師、教授、專家、工程師以及企業資深分析師,名師薈萃,代表了國內資料分析培訓的最高水平,可以很好地保證培訓的學員既能學到紮實的資料分析理論知識,又能具備較強的利用軟體解決實際問題的能力,保證學員能勝任各行業資料分析師工作的要求。年培訓人數超過 3000 人,為中國資料分析師行業發展提供強有力的推動。
來源:人大經濟論壇