如何區分大資料的屬性

大資料小知識發表於2022-05-10

  擁有大資料是件令人興奮的事,但在實踐中處理大資料存在一定的困難,如資料量過大事情就會變得更困難。為了處理大資料要採用高效能演算法,這些演算法也已展現出驚人的優越性。資料通常由一個矩陣表示,矩陣的行表示不同的條目或記錄,列則表示這些條目的不同屬性特徵。

  大資料的屬性是什麼?

  一、結構化與非結構化資料

  某些資料集具有很好的結構性,就像資料庫中的資料表或電子錶程式中一樣。而其他的資料以更多樣的形式記錄著有關世界狀況的資訊。它們可能是像維基百科這樣包含影像和超級連結的文字語料庫,也可能是個人醫療記錄中出現的複雜的註釋和測試結果的混合資料。

  資料通常由一個矩陣表示,矩陣的行表示不同的條目或記錄,列則表示這些條目的不同屬性特徵。例如,關於美國的城市資料集中每一行代表一個城市,每列則代表州、人口和地區等特徵。

  當面對一個非結構化資料來源時,我們通常首先要構建一個矩陣以使這些資料結構化。詞袋模型可以構建一個矩陣,每條推文對應矩陣中的一行,每個常用詞彙對應矩陣中的一列。矩陣項M[i,j]則表示推文i中單詞j出現的次數。

  二、定量資料與類別資料

  定量資料由數值組成,如高度和重量。這些資料可以被直接帶入代數公式和數學模型,也可以在傳統的圖表中進行表示。相比之下,類別資料則由描述被調查物件屬性的標籤組成,如性別、頭髮顏色和職業。這種描述性資訊可以像數值型資料一樣精確而有意義,但不能使用相同的方法進行處理。

  類別資料通常可以進行數字化編碼。例如,性別可以表示為男=0或女=1。但如果每個特性包含兩個以上字元,尤其當它們之間沒有隱序時,事情會變得更加複雜。我們可以對頭髮的顏色進行數字化編碼,即為不同顏色匹配不同的數值,如灰色頭髮=0、紅色頭髮=1以及金色頭髮=2。然而,除了單純地進行特徵識別之外,我們並不能真正將這些值視為數字。討論頭髮的最大或最小顏色有什麼意義呢?又如何解釋我的頭髮顏色減去你的頭髮顏色的含義呢?

  三、大資料與小資料

  在大眾眼中資料科學已經與大資料混為一談,資料科學以計算機日誌和感測器裝置產生的海量資料集為分析物件。原則上,擁有更多的資料總是比資料少要好,因為如果有必要,可以通過抽樣來捨棄其中的一些資料,從而得到一個更小的資料集。

  擁有大資料是件令人興奮的事。但在實踐中,處理大資料存在一定的困難。一般來說,一旦資料量過大,事情就會變得更困難。大資料的挑戰包括:

  一個分析週期所用的時間隨著資料規模的增長而變長:對資料集的計算性操作會隨著資料量的增加而花費更長的時間。電子表格可以提供即時響應,允許使用者進行實驗測試以及驗證各種假設。但計算大型電子表格時,會變得笨拙而緩慢。處理大規模資料集可能需要數小時或數天才能得到結果。為了處理大資料,要採用高效能演算法,這些演算法也已展現出驚人的優越性。但是絕不能為了獲得更快的計算速度而將大資料拆分為小資料。

  大型資料集複雜的視覺化過程:在計算機螢幕或列印的影像上不可能將大資料中的數百萬個要點全部繪製出來,更不要說對這些資料進行概念性的理解了。我們無法滿懷希望地去深入理解一個根本無法看到的東西。

  簡單的模型不需要大量的資料來匹配或評估:典型的資料科學任務是基於一小部分變數做出決策,比如,根據年齡、性別、身高、體重以及現有的醫療水平來決定是否應該為投保人提供人壽保險。

  如何區分大資料的屬性.中琛魔方大資料平臺表示大資料有時被稱為壞資料。它們作為已有系統或程式的副產品被收集起來,而不是為了回答我們手頭已經設計好的問題而有目的地收集來的。這就使得我們可能不得不努力去解釋一些現象,僅僅是因為我們擁有了這些資料。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69936596/viewspace-2893236/,如需轉載,請註明出處,否則將追究法律責任。

相關文章