資料科學入門 (一) —— 資料

xietao3發表於2017-10-23

Data Scientists - The Sexiest Job of the 21st Century。

背景

這是我們公司內部的學習興趣班課程,並加以總結,加深鞏固學習效果。

一、什麼是資料科學

1.1 資料科學

資料科學(英語:Data Science),是一門利用資料學習知識的學科,其目標是通過從資料中提取出有價值的部分來生產資料產品。它結合了諸多領域中的理論和技術,包括應用數學,統計,模式識別,機器學習,資料視覺化,資料倉儲,以及高效能運算。資料科學通過用運用各種相關的資料來幫助非專業人士理解問題。 資料科學技術可以幫助我們如何正確的處理資料的並協助我們在生物,社會科學,人類學等領域進行研究調研。此外,資料科學也對商業競爭有極大的幫助。

資料科學的組成要素可以從下面這個維恩圖得到線索。它包括了計算機技巧,數學和統計知識,實質性的專業知識。

資料科學
資料科學

你不一定要擁有電腦科學的學歷,但資料是電子化交易的商品,所以你需要了解一些開發技能。這些技能包括:Linux 知識,能夠操縱文字檔案的命令列,瞭解向量操作,演算法的思想,這些技巧都是資料極客所需要的。

一旦你已經獲得並清理好資料,下一步就是從中提取有用的知識。此時你需要運用適當的數學和統計方法。這並不是說你要成為統計學博士,但你確實需要知道普通最小二乘迴歸之類的東西,以及如何解釋其結果。

在第三個關鍵是專業領域的知識背景。如果資料分析只是你的業餘愛好,那麼只搗鼓數學、機器學習和統計資料也就夠了。但如果你從事資料科學的工作,這就要求從專業背景上提出問題,並用資料和統計方法進行檢驗,這樣才能真正的發現並構建知識。

最後,要注意的是黑客技能加專業知識的危險區。這裡所描述的是那些“半桶水專家”,他們知道如何得到合適的資料,甚至掌握如何用R語言進行線性迴歸並報告係數,但他們不理解那些係數的真正含義。在不瞭解內在統計意義時進行資料分析是危險的,這也是資料分析經常被濫用情況。

1.2 資料科學家

資料科學家是一名負責收集,分析和解讀大量資料的專業人士,以確定幫助業務改善運營並獲得競爭對手競爭優勢的方法。
資料科學家的角色是統計學家角色的分支,包括使用先進的分析技術,包括機器學習和預測建模 ,提供超越統計分析的見解。 資料科學技能的需求近年來有顯著增長,因為企業希望通過大量企業生產和收集的大量結構化, 非結構化和半結構化資料(統稱為大資料)來收集有用的資訊。

1.3 資料科學家需要的特質

  • 好奇心 — 資料科學家傾向於用探索資料的方式來看待周圍的世界。

  • 問題分體整理能力 — 把大量散亂的資料變成結構化的可供分析的資料,還要找出豐富的資料來源,整合其他可能不完整的資料來源,並清理成結果資料集。

  • 快速學習能力 — 新的競爭環境中,挑戰不斷地變化,新資料不斷地流入,資料科學家需要幫助決策者穿梭於各種分析,從臨時資料分析到持續的資料互動分析。

  • 問題轉化能力 — 資料科學家會遇到技術瓶頸,但他們能夠找到新穎的解決方案。

  • 業務精通 — 當他們有所發現,便交流他們的發現,建議新的業務方向。

  • 表現溝通能力 — 他們很有創造力的展示視覺化的資訊,也讓找到的模式清晰而有說服力。

總體來說,能拿到資料的能力,能理解資料、處理資料、從中抽取價值、視覺化資料並能和別人交流結果,將會是下一個十年裡極度重要的技能。

二、 資料裡的科學

2.1 什麼是資料?

資料是我們對我們所處的世界的描述,除了我們最常見數字之外,包括文字、圖片、語音和視訊都是各種型別的資料。

2.2 為什麼要使用資料?

計算機世界裡的資料是由一串串二進位制的數字構成,對我們來說他們只是一堆冰冷的資料,並不能告訴我們任何資訊。

資料
資料

資料:就如同下方一組溫度資料,在我不告訴你資料的上下文(context)之前,你也許會認為這是病人發高燒的體溫記錄。其實這些是一組鴨子的體溫測量記錄,全都在正常範圍內。就如同上面所說的,資料在沒有上下文的情況下,不能告訴我們任何資訊。

41.5℃ 40.6℃ 41.1℃ 39.9℃ 41.9℃ 40.9℃

資訊:資訊泛指人類社會傳播的一切內容。人通過獲得、識別自然界和社會的不同資訊來區別不同事物,得以認識和改造世界。資訊與知識的不同之處在於,人每天都能收集到各種資訊,但這些資訊不一定真實可信,虛假資訊明顯不可能成為知識,只有得到社會公認的資訊才能稱之為知識,人們通過收集這些被公認的知識來構建自己的知識體系。

知識:通過自己的知識,我們能判斷一些資訊的真偽,舉個例子:路人甲告訴你明天的氣溫是200℃,這顯然是不可信的;

再舉個例子:果蔬公司的領導說今年的業績要同比提高50%,也許新員工一聽這個業績目標會被驚呆。可是在老員工的心裡默默的算了一筆賬,去年由於受自然災害的影響,公司的業績相比前年一落千丈,今年的雨水豐沛,也沒有自然災害影響,要達到這個目標並不難。老員工在基於自己果蔬行業的知識體系和去年是受災減產這一上下文,得出與新員工截然相反的結論。

智慧:之前所說的資料、資訊和知識都是已經發生或存在的,而智慧是挖掘藏在資料裡面的資訊,並且利用我們的知識體系對未知的事物進行預測,而這也是最值得期待的部分。

2.3 資料的測量尺度

參考下方圖表,定類和定序比較容易理解。而定距常見於攝氏度和公元紀年,你不能說21℃溫度是10℃溫度的2倍,你只能說21℃溫度比10℃高11℃,只能表達他們的間距。而定比是可以說倍數的,金額、重量等資料都可以使用定比方式來測量。

測量尺度 特點 可用的數學運算 例子 展示方式
定類資料(nominal scale) 分型別的,大家無高低貴賤之分 =, != 性別、商品類別、配送方式 直方圖、餅圖、柱圖、雷達圖
定序資料(ordinal scale) 可比較,有層級了 =, !=, >, < 商品評分、配送評分、使用者等級 箱線圖
定距資料(interval scale) 間隔一致,無絕對0點 =, !=, >, <, +, - 攝氏溫度、公元紀年 線圖
定比資料(ratio scale) 有絕對0點,可以說幾倍數 =, !=, >, <, +, -, ×, ÷ 開爾文溫度、重量、金額 很多 ……

2.4 資料的時間維度

針對不同分析需求,資料通常可以分兩個時間維度進行分析:

  • 時間截面:在某一個時間點,使用者的訂單單資料。
  • 時間序列:某一個使用者,最近一年的訂單資料。

2.5 資料的集中趨勢和離散程度

  • 眾數:出現次數最多數
  • 中位數:排序後處於中間位置的數
  • 均值:所有數平均值
  • 方差:所有值與平均數的差的平方的總和除以值的個數
  • 標準差:方差的平方根

下面這一組資料眾數為225,中位數為225,均值為225.10,標準差為21.07

225, 232, 232, 245, 235, 245, 270, 225, 240, 243, 
217, 195, 225, 185, 200, 198, 197, 210, 271, 240,
 220, 230, 215, 252, 225, 220, 206, 192, 227, 236複製程式碼

2.5 資料的分佈

  • 正態分佈 具有集中性 ,正態曲線的高峰位於正中央,即均數所在的位置,像人的身高和體重資料都符合正態分佈曲線,越接近平均身高時人數越多。

正態分佈
正態分佈

  • 冪分佈 19世紀的義大利經濟學家Pareto研究了個人收入的統計分佈,發現少數人的收入要遠多於大多數人的收入,提出了著名的80/20 法則,即20%的人口占據了80%的社會財富。該資料即符合冪分佈。

冪分佈
冪分佈

  • 指數分佈 的圖形表面上看與冪律分佈很相似,實際兩者有極大不同,指數分佈的收斂速度遠快過冪律分佈。指數分佈是一種連續概率分佈。指數分佈可以用來表示獨立隨機事件發生的時間間隔,比如旅客進機場的時間間隔。

指數分佈
指數分佈

三、資料分析

3.1 還原資料背後的真實

  • 後設資料 —— 有場景上下文嗎?

  • 資料缺失 —— 收集到了嗎?收集到的資料完整嗎?

  • 資料異常 —— 根據的的知識來判斷,資料收集對了嗎?

  • 是你想要的嗎?

3.1 設定資料分析步驟

a. 設定一個分析目標:分析近6個月的工作質量。
b. 影響該目標的指標:任務數量,任務難度,任務成功率。
c. 分析每項指標型別: 任務數量為定比型別,難度為定序型別,成功率為定比型別。
d. 找到指標影響目標的公式:任務數量 任務難度 任務成功率。
e. 驗證你得到的結果。

四、展示資料

4.1 錯誤示範

  1. 使用者對我們物流小哥的評價平均是4.57。
  2. 上海人民最幸福,家庭平均月收入是50000元。
  3. 育才中學的小明成績全市第一,所以育才中學教學質量非常好。

4.2 正確示範

  1. 使用者對我們物流小哥的評價次數最多的是5分,佔比81%。
  2. 上海人民最幸福,所有家庭月收入中位數是9200元,眾數是9000。
  3. 育才中學的學生平均成績全市第一,所以育才中學教學質量非常好。

小結

在這門課程中,需要學習的不僅僅是理論知識,還有思維轉變,從“我覺得”或“我猜測“到“基於以上論證,我判斷”的轉變。

後面有時間會繼續寫點深入的知識點?。

相關文章