初識大資料

大資料學習發表於2019-06-30

什麼是大資料?大資料有什麼特點?大資料與傳統的資料有什麼關係?大資料和我們有什麼關係?雖然很多書籍上直接說明了大資料的概念和特點,但是根據個人的體會,如果我們先了解資料的概念和特點,那麼我們將會更加容易理解大資料。

關於資料的幾個問題

什麼是資料?狹義上講資料就是數值,也就是我們透過觀察、實驗或計算得出的結果;從廣義上講,資料的含義更加廣闊,也可以是文字、影像、聲音等。當前我們所說的資料一般是指廣義上的資料。

初識大資料

資料有什麼特點?資料的種類繁多(語言、文字、數值、影像影音等),資料質量也參差不齊真假難辨,資料儲存介質各異(口頭相傳、紙張書籍、數碼磁碟),簡單的總結資料的特點就是一下幾個字:多、雜、亂。

資料有什麼作用?資料的本身最主要作用是用於記錄事物及其發展,人們可以根據這些記錄的資料對事物進行相應的分析,得到相關的規律和結果(如根據實驗資料得到相應的計算公式),並根據得到的規律和結果對現有或者未來的事物做出相應的決策行動。

在這裡還是要推薦下我自己建的大資料學習交流群:251956502,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。

初識大資料

大資料的由來

大資料概念的的興起也就是最近不到10年的時間,我們在瞭解了資料的幾個基本概念之後,我們再來看一下大資料出現的背景。

關於資料的起源,早在遠古時代人們就已經在石頭、樹木上記載相應的資料了,再到後來人們用竹簡、棉帛等記載和傳輸資料,在這一階段資料的記錄和傳播都是非常有限的;到後來紙張的出現和印刷術的發明,資料的記錄和傳播有了第一次長足的進步,但是此時的資料量仍舊是相當的小,傳播速度也是較為緩慢,傳播範圍相對狹窄,人們對資料的分析和使用十分有限;直到了計算機和磁碟等儲存介質的出現,人們記錄資料和計算分析資料的能力有了質的飛躍,隨著網際網路的出現和通訊技術的不斷提高,資料的產生和傳播速度以及傳播範圍急速提升,資料呈現爆發式的增長,人們幾乎可以實時的瞭解世界上發生的所有重大事件,至此人們進入所謂的大資料時代。

大資料的基本概念

大資料和傳統資料相比有什麼異同呢?僅僅是資料量的增加嗎?我們應對大資料的方法和應對傳統資料的方法一樣嗎?大資料與我們的生活有什麼直接的關係嗎?

大資料和傳統資料有什麼異同呢?現在較為認可的大資料的特點是關於大資料“4V”的說法,也就是大資料與傳統資料的異同點,即資料量大、資料型別繁多、資料處理速度快、資料的價值密度較低。

資料量(Volume)

資料型別(Variety)

處理方式(Velocity)

資料價值(Value)

傳統資料

資料量較小,增長速度較慢

資料型別單一,以數字與文字為主

人工計算推導,單機處理,時效性不高

價值密度較高,儲存的基本都是有用資訊

大資料

資料量較大,資料量層指數型增加

資料型別豐富,影音資料的比例較大

分散式處理,時效性較高

價值密度較低,需要從大量資料中挖掘價值

那我們應該用什麼方法去應對這些資料呢?根據大資料和傳統資料的特點,我們在處理這些海量資料的時候思維上應該有一些改變,在《大資料時代:生活工作與思維的大變革》一書中指出,我們在應對大資料的時候應該有一下3中思維的改變:全量而非抽樣,效率而非精確,相關而非因果。

全量而非抽樣 ,在以前資料儲存和計算能力的限制下,在資料分析中通常採用抽樣的方法,透過對部分資料進行分析得到相應的結論進而推廣到整個資料集中。在大資料時代中,資料的儲存和計算不在是瓶頸,運用整個資料集進行全域的資料分析快速地得到相應的結果已經成為可能。

效率而非精確,在過去的抽樣分析中,必須確保樣本分析的精確性才能在全域資料中進行推廣,以免資料分析結果的誤差會在全域資料中擴大,這樣導致資料的分析驗證較為繁瑣且效率低下。在大資料時代中,直接對全域資料進行分析,分析結果的誤差直接基於所有的資料,在可接受誤差範圍內直接使用分析結果即可,不用擔心分析誤差的擴散。

相關而非因果,在過去的資料分析中,分析的目的往往是瞭解事物發生背後的原理,但是在大資料時代資料的因果關係不在那麼重要,人們關注的往往是事情將如何發展而不是資料為什麼這樣發展,這樣事物之間的相關性就顯得更加的重要。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2649147/,如需轉載,請註明出處,否則將追究法律責任。

相關文章