資料分析百科給出準確定義:指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。
簡而言之就是有目的的收集資料、分析資料,使之成為資訊的過程。
資料分析過程1、探索性資料分析
初步獲取的資料是雜亂無章的,通過圖表形式對資料進行整合,找尋資料之間存在的關係。
2、模型選定分析
通過探索性資料分析,歸納出一類甚至是多類資料模型,通過對模型再次整合,進一步分析出一定的模型。
3、推斷分析
通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。
資料分析流程
完整資料分析流程圖
1. 識別資訊需求
識別資訊需求是確保資料分析過程有效性的首要條件,可以為收集資料、分析資料提供清晰的目標。
2.資料採集
瞭解資料採集的意義在於真正瞭解資料的原始面貌,包括資料產生的時間、條件、格式、內容、長度、限制條件等。幫助資料分析師更有針對性的控制資料生產和採集過程,避免由於違反資料採集規則導致的資料問題;同時對資料採集邏輯的認識增加了資料分析師對資料的理解程度,尤其是資料中的異常變化。
在資料採集階段,資料分析師需要更多的瞭解資料生產和採集過程中的異常情況,能很大程度上避免“垃圾資料進導致垃圾資料出”的問題。
2.資料儲存
在資料儲存階段,資料分析師需要了解資料儲存內部的工作機制和流程,最核心的因素是在原始資料基礎上經過哪些加工處理,最後得到了怎樣的資料。由於資料在儲存階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由於軟硬體、內外部環境問題無法保證,這些都會導致後期資料應用問題。
3.資料提取
資料提取是將資料取出的過程,資料提取的核心環節是從哪取、何時取、如何取。
在資料提取階段,資料分析師首先需要具備資料提取能力。常用的Select From語句是SQL查詢和提取的必備技能,但即使是簡單的取數工作也有不同層次。
第一層是從單張資料庫中按條件提取資料的能力,where是基本的條件語句;
第二層是掌握跨庫表提取資料的能力,不同的join有不同的用法;
第三層是優化SQL語句,通過優化巢狀、篩選的邏輯層次和遍歷次數等,減少個人時間浪費和系統資源消耗。
4.資料探勘
資料探勘是面對海量資料時進行資料價值提煉的關鍵,以下是演算法選擇的基本原則:
沒有最好的演算法,只有最適合的演算法,演算法選擇的原則是兼具準確性、可操作性、可理解性、可應用性。
沒有一種演算法能解決所有問題,但精通一門演算法可以解決很多問題。
挖掘演算法最難的是演算法調優,同一種演算法在不同場景下的引數設定相同,實踐是獲得調優經驗的重要途徑。
在資料探勘階段,資料分析師要掌握資料探勘相關能力:一是資料探勘、統計學、數學基本原理和常識;二是熟練使用一門資料探勘工具,Clementine、SAS或R都是可選項,如果是程式出身也可以選擇程式設計實現;三是需要了解常用的資料探勘演算法以及每種演算法的應用場景和優劣差異點。
5.資料分析
分析資料是將收集的資料通過加工、整理和分析、使其轉化為資訊,通常所用的方法有:
老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;
新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣資料圖;
資料分析相對於資料探勘更多的是偏向業務應用和解讀,當資料探勘演算法得出結論後,如何解釋演算法在結果、可信度、顯著程度等方面對於業務的實際意義,如何將挖掘結果反饋到業務操作過程中便於業務理解和實施是關鍵。
6.資料視覺化
資料分析界有一句經典名言,字不如表,表不如圖。別說平常人,資料分析師自己看資料也頭大。這時就得靠資料視覺化的神奇魔力了。除掉資料探勘這類高階分析,不少資料分析師的平常工作之一就是監控資料觀察資料。
7.資料應用
資料應用是資料具有落地價值的直接體現,這個過程需要資料分析師具備資料溝通能力、業務推動能力和專案工作能力。
資料溝通能力。深入淺出的資料包告、言簡意賅的資料結論更利於業務理解和接受。
業務推動能力。在業務理解資料的基礎上,推動業務落地實現資料建議。
專案工作能力。資料專案工作是循序漸進的過程,無論是一個資料分析專案還是資料產品專案,都需要資料分析師具備計劃、領導、組織、控制的專案工作能力。
附:資料分析常用方法
1、描述性統計分析
包括樣本基本資料的描述,作各變數的次數分配及百分比分析,以瞭解樣本的分佈情況。
此外,以平均數和標準差來描述市場導向、競爭優勢、組織績效等各個構面,以瞭解樣本企業的管理人員對這些相關變數的感知,並利用t檢驗及相關分析對背景變數所造成的影響做檢驗。
2、Cronbach’a信度係數分析
信度是指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性(consistency)來加以表示該測驗信度的高低,信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。
針對各研究變數的衡量題項進行Cronbach’a信度分析,以瞭解衡量構面的內部一致性。一般來說,Cronbach’a僅大於0.7為高信度,低於0.35為低信度(Cuieford,1965),0.5為最低可以接受的信度水準(Nunnally,1978)。
3、探索性因素分析(exploratory factor analysis)和驗證性因素分析(confirmatory factor analysis)
用以測試各構面衡量題項的聚合效度(convergent validity)與區別效度(discriminant validity),因為僅有信度是不夠的,可信度高的測量,可能是完全無效或是某些程度上無效,所以我們必須對效度進行檢驗。
效度是指工具是否能測出在設計時想測出的結果,收斂效度的檢驗根據各個專案和所衡量的概念的因素的負荷量來決定,而區別效度的檢驗是根據檢驗性因素分析計算理論上相關概念的相關係數,檢定相關係數的95%信賴區間是否包含1.0,若不包含1.0,則可確認為具有區別效度(Anderson,1987)。
4、結構方程模型分析(structural equations modeling)
由於結構方程模型結合了因素分析(factor analysis)和路徑分析(path analysis),並納入計量經濟學的聯立方程式,可同時處理多個因變數,容許自變數和因變數含測量誤差,可同時估計因子結構和因子關係,容許更大彈性的測量模型,可估計整個模型的擬合程度(Bollen和Long,1993),因而適用於整體模型的因果關係。
在模型引數的估計上,採用最大似然估計法(Maximum Likelihood,ML);在模型的適合度檢驗上,以基本的擬合標準(preliminary fit criteria)、整體模型擬合優度(overall model fit)以及模型內在結構擬合優度(fit of internal structure of model)(Bagozzi和Yi,1988)三個方面的各項指標作為判定的標準。
在評價整體模式適配標準方面,本研究採用x2(卡方)/df(自由度)值、擬合優度指數(goodness.of.f:iJt.in.dex,GFI)、平均殘差平方根(root—mean.square:residual,RMSR)、近似誤差均方根(root-mean—square-error-of-approximation,RMSEA)等指標;模型內在結構擬合優度則參考Bagozzi和Yi(1988)的標準,考察所估計的引數是否都到達顯著水平。