資料分析-學習篇-01

程式設計師的貓發表於2020-08-19

資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,將它們加以彙總和理解並消化,以求最大化地開發資料的功能,發揮資料的作用。資料分析是為了提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。

資料分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得資料分析得以推廣。資料分析是數學與電腦科學相結合的產物。

中文名

資料分析

外文名

Data Analysis

目 的

最大化地開發資料的功能

資料也稱

觀測值,實驗、測量、觀察結果

簡介

資料分析指用適當的統計、分析方法對收集來的大量資料進行分析,將它們加以彙總和理解並消化,以求最大化地開發資料的功能,發揮資料的作用。資料分析是為了提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。

資料也稱為觀測值,是實驗、測量、觀察、調查等的結果。資料分析中所處理的資料分為定性資料和定量資料。只能歸入某一類而不能用數值進行測度的資料稱為定性資料。定性資料中表現為類別,但不區分順序的,是定類資料,如性別、品牌等;定性資料中表現為類別,但區分順序的,是定序資料,如學歷、商品的質量等級等。

目的

資料分析的目的是把隱藏在一大批看來雜亂無章的資料中的資訊集中和提煉出來,從而找出所研究物件的內在規律。在實際應用中,資料分析可幫助人們做出判斷,以便採取適當行動。資料分析是有組織有目的地收集資料、分析資料,使之成為資訊的過程。這一過程是質量管理體系的支援過程。在產品的整個壽命週期,包括從市場調查到售後服務和最終處置的各個過程都需要適當運用資料分析過程,以提升有效性。例如設計人員在開始一個新的設計以前,要通過廣泛的設計調查,分析所得資料以判定設計方向,因此資料分析在工業設計中具有極其重要的地位。

型別

統計學領域,有些人將資料分析劃分為描述性統計分析、探索性資料分析以及驗證性資料分析;其中,探索性資料分析側重於在資料之中發現新的特徵,而驗證性資料分析則側重於已有假設的證實或證偽。

探索性資料分析

探索性資料分析是指為了形成值得假設的檢驗而對資料進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基(John Tukey)命名。

定性資料分析

定性資料分析又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數值型資料(或者說資料)的分析。

離線資料分析

離線資料分析用於較複雜和耗時的資料分析和處理,一般通常構建在雲端計算平臺之上,如開源的HDFS檔案系統和MapReduce運算框架。Hadoop機群包含數百臺乃至數千臺伺服器,儲存了數PB乃至數十PB的資料,每天執行著成千上萬的離線資料分析作業,每個作業處理幾百MB到幾百TB甚至更多的資料,執行時間為幾分鐘、幾小時、幾天甚至更長。

線上資料分析

線上資料分析也稱為聯機分析處理,用來處理使用者的線上請求,它對響應時間的要求比較高(通常不超過若干秒)。與離線資料分析相比,線上資料分析能夠實時處理使用者的請求,允許使用者隨時更改分析的約束和限制條件。與離線資料分析相比,線上資料分析能夠處理的資料量要小得多,但隨著技術的發展,當前的線上分析系統已經能夠實時地處理數千萬條甚至數億條記錄。傳統的線上資料分析系統構建在以關聯式資料庫為核心的資料倉儲之上,而線上大資料分析系統構建在雲端計算平臺的NoSQL系統上。如果沒有大資料的線上分析和處理,則無法儲存和索引數量龐大的網際網路網頁,就不會有當今的高效搜尋引擎,也不會有構建在大資料處理基礎上的微博、部落格、社交網路等的蓬勃發展。

分析方法

1、列表法

將資料按一定規律用列表方式表達出來,是記錄和處理最常用的方法。表格的設計要求對應關係清楚,簡單明瞭,有利於發現相關量之間的相關關係;此外還要求在標題欄中註明各個量的名稱、符號、數量級和單位等:根據需要還可以列出除原始資料以外的計算欄目和統計欄目等。

2、作圖法

作圖法可以最醒目地表達各個物理量間的變化關係。從圖線上可以簡便求出實驗需要的某些結果,還可以把某些複雜的函式關係,通過一定的變換用圖形表示出來。

圖表和圖形的生成方式主要有兩種:手動製表和用程式自動生成,其中用程式製表是通過相應的軟體,例如SPSS、Excel、MATLAB等。將調查的資料輸入程式中,通過對這些軟體進行操作,得出最後結果,結果可以用圖表或者圖形的方式表現出來。圖形和圖表可以直接反映出調研結果,這樣大大節省了設計師的時間,幫助設計者們更好地分析和預測市場所需要的產品,為進一步的設計做鋪墊。同時這些分析形式也運用在產品銷售統計中,這樣可以直觀地給出最近的產品銷售情況,並可以及時地分析和預測未來的市場銷售情況等。所以資料分析法在工業設計中運用非常廣泛,而且是極為重要的。

分析工具

使用Excel自帶的資料分析功能可以完成很多專業軟體才有的資料統計、分析,其中包括:直方圖、相關係數、協方差、各種概率分佈、抽樣與動態模擬、總體均值判斷,均值推斷、線性、非線性迴歸、多元迴歸分析、移動平均等內容。在商業智慧領域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國內產品如Yonghong Z-Suite BI套件等。^ [5]^

步驟

資料分析有極廣泛的應用範圍。典型的資料分析可能包含以下三個步:

1、探索性資料分析:當資料剛取得時,可能雜亂無章,看不出規律,通過作圖、造表、用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示隱含在資料中的規律性。^ [6]^

2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。

3、推斷分析:通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。

資料分析過程的主要活動由識別資訊需求、收集資料、分析資料、評價並改進資料分析的有效性組成。

識別需求

識別資訊需求是確保資料分析過程有效性的首要條件,可以為收集資料、分析資料提供清晰的目標。識別資訊需求是管理者的職責管理者應根據決策和過程控制的需求,提出對資訊的需求。就過程控制而言,管理者應識別需求要利用那些資訊支援評審過程輸入、過程輸出、資源配置的合理性、過程活動的優化方案和過程異常變異的發現。^ [6]^

收集資料

有目的的收集資料,是確保資料分析過程有效的基礎。組織需要對收集數

資料分析示意圖

據的內容、渠道、方法進行策劃。策劃時應考慮:

①將識別的需求轉化為具體的要求,如評價供方時,需要收集的資料可能包括其過程能力、測量系統不確定度等相關資料;

②明確由誰在何時何處,通過何種渠道和方法收集資料;

③記錄表應便於使用; ④採取有效措施,防止資料丟失和虛假資料對系統的干擾。

分析資料

分析資料是將收集的資料通過加工、整理和分析、使其轉化為資訊,通常用方法有:

老七種工具,即排列圖、因果圖、分層法、調查表、散佈圖、直方圖、控制圖;

新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣資料圖。

過程改進

資料分析是質量管理體系的基礎。組織的管理者應在適當時,通過對以下問題的分析,評估其有效性:

①提供決策的資訊是否充分、可信,是否存在因資訊不足、失準、滯後而導致決策失誤的問題;

②資訊對持續改進質量管理體系、過程、產品所發揮的作用是否與期望值一致,是否在產品實現過程中有效運用資料分析;

③收集資料的目的是否明確,收集的資料是否真實和充分,資訊渠道是否暢通;

④資料分析方法是否合理,是否將風險控制在可接受的範圍;

⑤資料分析所需資源是否得到保障。

案例

1、沃爾瑪經典營銷案例:啤酒與尿布

“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售資料時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現在年輕的父親身上。^ [7]^

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。

當然“啤酒與尿布”的故事必須具有技術方面的支援。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯演算法,並根據商品之間的關係,找出客戶的購買行為。艾格拉沃從數學及計算機演算法角度提 出了商品關聯關係的計算方法——Aprior演算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機資料分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。

2、Suncorp-Metway使用資料分析實現智慧營銷

Suncorp-Metway是澳大利亞一家提供普通保險、銀行業、壽險和理財服務的多元化金融服務集團, 旗下擁有5個業務部門,管理著14類商品,由公司及共享服務部門提供支援,其在澳大利亞和紐西蘭的運營業務與900多萬名客戶有合作關係。

該公司過去十年間的合併與收購,使客戶群增長了200%,這極大增加了客戶群資料管理的複雜性,如果解決不好,必將對公司利潤產生負面影響.為此,IBM公司為其提供了一套解決方案,元件包括:IBM Cognos 8 BI、IBMInitiate Master Data Service諛IBM Unica。

採用該方案後,Suncorp-Metway公司至少在以下三項業務方面取得顯著成效:

1、顯著增加了市場份額,但沒有增加營銷開支;

2、每年大約能夠節省1000萬美元的整合與相關成本;

3、避免向同一戶家庭重複郵寄相同信函並且消除冗餘系統,從而同時降低直接郵寄與運營成本。

由此可見,Suncorp-Metway公司通過該方案將此前多個孤立來源的資料整合起來,實現智慧營銷,對控制成本,增加利潤起到非常積極的作用。
(文章轉載:百度百科:https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/6577123?fr=aladdin)

本作品採用《CC 協議》,轉載必須註明作者和本文連結
你還差得遠吶!

相關文章