阿里年薪80w資料總監分享:一張圖瞭解資料分析完整流程
最近,老李已經陸陸續續給大家分享了一些資料分析的乾貨,包括資料分析方法和模型。
但也有粉絲私聊我說,跟著我學這些分析方法和模型一段時間了,是感覺到自己學了挺多, 但總感覺自己缺少一套方法論,也就是從0-1的資料分析流程。
的確,現在我們在網上學習到的知識都是碎片化,不成體系的,很容易今天學了,明天就忘了。而且常常還會把很多知識點記混,沒法把他們串在一起。
所以,今天老李就用一張圖來帶你梳理清楚資料分析的完整流程。先了解整個流程,再去了解每個流程需要學哪些知識,做到從面到點地去學習,學習後再以點帶面地總結歸納。
建議收藏這張圖,跟著圖去一步步學。
這不僅適合新手小白也適合那些剛當上資料部門管理層的小組長,因為你們之前可能只從事資料流程的某一個環節,而不清楚流程中各個環節的具體工作。
1、資料採集
資料採集,也就是對各種來源的結構化和非結構化海量資料進行採集。
而不同企業實際經營過程中,會有不同的方式去進行資料的採集。例如,
生產車間可以透過感測器等裝置收集生產環節的資料。
庫存倉庫可用過掃碼等手段來收集,以及後續物流運輸資料。
銷售中心可以透過改進業務流程,設定資料採集環節來收集資料。
營銷部門可以透過網站的埋點來收集使用者的行為資料。
但通常來說,資料採集可分為以下三類。
資料庫採集:流行的有Sqoop和ETL,傳統的關係型資料庫MySQL和Oracle 也依然充當著許多企業的資料儲存方式。當然了,目前對於開源的Kettle和Talend本身,也整合了資料整合內容,可實現hdfs,hbase和主流Nosq資料庫之間的資料同步和整合。
網路資料採集:一種藉助網路爬蟲或網站公開API,從網頁獲取非結構化或半結構化資料,並將其統一結構化為本地資料的資料採集方式。
檔案採集:包括實時檔案採集和處理技術flume、基於ELK的日誌採集和增量採集等等。
2、資料處理
資料處理指的是在進行資料分析之前,先對採集到的原始資料進行像資料清洗、填補、合併、規格化、一致性檢驗等一系列操作,目的是為了提高資料質量,為後期資料分析工作奠定好基礎。
而常見的資料處理方法包括去除重複值、處理缺失資料、檢查資料邏輯錯誤、資料轉換、資料分組、異常資料備份等。
3、資料分析
在資料分析這個環節,有兩個要點需要在進行資料分析前確定好。
第一點:選取合適的方法去分析資料
PEST、4P營銷理論、5W2H、使用者行為理論、邏輯樹分析論等。
第二點:選取合適的分析方法
杜邦分析法、對比分析法、結構分析法、漏斗圖分析法、交叉分析法、平均分析法等。
這兩點的具體方法內容,我在之前的文章裡都有過詳細的介紹。
4、資料展現
資料展現通俗來說,就是要把你分析好的 資料結果用正確的圖表展現出來。因此,要做好資料展現的前提,就是要先確定好用哪種圖表來表現資料,讓圖表結果最為直觀。
那麼如何確定用哪種圖表是正確的?
需要反覆思考以下4個問題
- 明確自己需要分析的內容,選擇合適的資料了嗎?
- 深入理解業務和業務需求,定義出需要分析的問題了嗎?
- 在具體分析後選擇關鍵問題,思考選擇合適的視覺化方法了嗎?
- 根據圖表中表達和分析的觀點和洞察,重新檢視資料和業務問題了嗎?
在實際資料分析過程中,最常用的圖表就是柱狀圖、折線圖、漏斗圖、金字塔圖、矩陣圖等。
5、資料視覺化
資料視覺化,一般來說就是資料分析師要把資料觀點展示給領導或業務人員的過程。
通常情況下,像我們公司在開月度、季度會議的時候,我都會把用FineBI或PowerBI做的視覺化大屏放到ppt裡,當領導問到我相關資料時,我就可以直接調出來,省了不少時間,也能夠讓領導一目瞭然。
老李我用多年經驗證明,領導就是喜歡這種簡單粗暴的展示方法,即能直觀看到資料變化趨勢,又能迅速調出所需資料。
6、資料分析報告
當我們採集、處理、分析、展現完資料後,並不是僅僅把資料羅列出來,然後直接扔給業務人員或領導就可以了。
一定要清楚明白,資料分析師的使命在於透過資料給出有價值的分析結論。因此,前面做了那麼多,都只是為資料包告做鋪墊,有價值的資料包告才是關鍵。
資料分析報告具體怎麼寫,我這裡就不贅述了,在之前這篇文章裡已經寫的很明白了。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/21472864/viewspace-2789380/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一張圖:資料分析師的完整資料視覺化指南圖視覺化
- 完整的資料分析是怎樣的流程
- 大資料行業年薪幾十萬,這些大資料崗位薪資瞭解一下大資料行業
- 從零開始資料分析:一個資料分析師的資料分析流程
- Python培訓分享:如何做資料分析,資料分析流程是什麼?Python
- 做資料分析必須瞭解的獲取資料與清洗資料技巧
- 網易資料分析高階總監:10年資料分析老司機的深度思考
- 一張圖解釋各種資料庫型別圖解資料庫型別
- 資料視覺化工具不會選?資料視覺化實現流程瞭解一下!視覺化
- 一張圖瞭解2013年美國主要社交網路發展資料–資訊圖
- 初識Hive:3張圖瞭解Hive的資料型別、架構圖!Hive資料型別架構
- 大資料初步瞭解大資料
- 瞭解Oracle資料字典Oracle
- Python呼叫阿里雲資料庫監控資料Python阿里資料庫
- 一張圖認識天下資料庫資料庫
- 7天帶你全面瞭解資料倉儲 體驗海量資料分析
- 阿里雲:一張圖看懂DTS資料同步最新價格調整阿里
- 一張圖讀懂阿里雲資料庫架構與選型阿里資料庫架構
- 一張圖解釋清楚大資料技術架構,堪稱阿里的核心機密圖解大資料架構阿里
- 一張圖瞭解WiFi 6WiFi
- 不知道資料模型?一文帶你瞭解資料模型!模型
- 你必須瞭解的大資料分析軟體大資料
- 瞭解圖形資料庫資料庫
- **大資料hadoop瞭解**大資料Hadoop
- 深入瞭解Oracle資料字典Oracle
- 資料視覺化如何實現?4大基本流程瞭解一下!視覺化
- 網站資料分析的基本流程網站
- 瞭解這幾個大資料應用案例,讓你更瞭解大資料!大資料
- 資料分析資料合集免費領!一行程式碼躺賺普通程式設計師10年薪資!行程程式設計師
- 3張圖瞭解,關聯式資料庫服務RDS的基本原理資料庫
- 一篇文章瞭解Redis資料庫Redis資料庫
- 原創 oracle 資料完整性總結Oracle
- 三分鐘瞭解實時流式大資料分析大資料
- 帶你深入瞭解什麼是商業資料分析
- 資料分享:跟著ttlsa一起學zabbix監控TLS
- 資料庫監聽夯故障分析資料庫
- 資料分析-pandas資料處理清洗常用總結
- 詳解Python 中視覺化資料分析工作流程Python視覺化