什麼是資料分析中的“資料”? - Cassie Kozyrkov

banq發表於2022-02-21

我們的感官感知到的一切都是資料,儘管它儲存在我們顱內潮溼的東西中還有一些不足之處。把它寫下來更可靠一點,尤其是當我們在電腦上寫下來的時候。當這些筆記組織良好時,我們稱它們為資料。

 

人類的記憶是一個漏桶:當我們記錄資料時,我們會對我們豐富感知的現實產生不忠實的破壞,但之後我們可以將未破壞的結果副本以完美的保真度傳輸給我們物種的其他成員。

 

當我們分析資料時,我們正在訪問別人的記憶。

而人類的記憶是一個漏桶。

 

如果你曾經希望自己能變魔術,那就學著寫程式碼吧。

簡而言之,這是程式設計:將網際網路上查詢後剛剛學到的魔法詞拿來,看看調整它們時會發生什麼,然後像樂高積木一樣將它們放在一起來完成你的競標。

 

分析和總結

有各種統計資料彙總方法:min()、max()、mean()、median()、mode()、variance() ……都試試吧!或者試試這個神奇的詞,看看會發生什麼。統計資料是對資料進行聚合的任何方式。

 

繪圖和視覺化

事實證明,一張圖片的價值可能超過一千字——每個資料點一個,然後是一些。

直方圖是總結和顯示我們的樣本資料的一種方式(在眾多方式中)。對於更流行的資料值,它們的塊更高。

將條形圖和直方圖視為人氣競賽。

要在電子表格軟體中製作一個,神奇的咒語是一系列點選各種選單。

 

什麼是分佈?

分佈是指包含所有資料樣本(您關心的所有資訊),而不僅僅是樣本(您手頭碰巧擁有的資料),因此我們能做的最好的事情就是使用一個好的樣本對其進行猜測。

 

什麼是資料科學?

“資料科學是使資料有用的學科。”

它的三個子領域:

  • 涉及挖掘大量資訊以獲取靈感(分析)、
  • 根據有限的資訊(統計資料)明智地做出決策,
  • 以及使用資料中的模式來自動化任務(ML/AI)。

所有的資料科學都歸結為:知識就是力量。

宇宙充滿了等待收穫和充分利用的資訊。雖然我們的大腦在導航我們的現實方面非常出色,但它們並不擅長儲存和處理某些型別的非常有用的資訊。

這就是為什麼人類首先轉向粘土片,然後轉向紙,最後轉向矽尋求幫助。我們開發了用於快速檢視資訊的軟體,如今知道如何使用它的人稱自己為資料科學家或資料分析師。真正的英雄是那些構建工具的人,這些工具使這些從業者能夠更好、更快地掌握資訊。順便說一句,即使是網際網路也是一種分析工具——我們只是很少這麼想,因為即使是孩子也可以進行這種資料分析。

 

我們都是資料分析師,而且一直都是。

 

相關文章