大資料的優點

河北彭于晏發表於2019-03-03

第一個V——高容量

這個最好理解,資料量一定要大,才好意思稱自己為大資料嘛。大到什麼程度呢?依目前行情來看,至少也要到TB級,很多案例都是PB甚至更高。但如果是GB級,非說自己是大資料也不是不可以,就是有點無顏見江東父老啊……

第二個V——多樣化

這個很關鍵了!是區別於以往海量資料探勘的最主要特徵。它有兩層含義,一是資料來源多樣化,系統資料、裝置日誌、感測器、檔案系統等等來源。二是資料結構多樣化,這是核心特徵!要包含結構化資料、非結構資料(包括所謂半結構化資料)。

總結起來就是,多源異構。這就是為什麼有人認為使用NoSQL資料庫(如MongoDB)就是大資料了,因為滿足了多樣化的特徵,但其實還不夠。

第三個V——高速

即時效性,基本上至少也要達到億級資料一秒查詢,做的比較好的可以達到千億級資料一秒查詢。這個特徵幾乎決定了傳統技術架構無法滿足要求,因此Hadoop架構的出現催化了大資料的發展,也是有人認為Hadoop就是大資料的原因。

第四個V——價值

這個很好理解,資料一定要有價值、而後才能產生價值。就好比存商品的叫才能倉庫,存垃圾的叫垃圾填滿坑一樣。沒價值的資料就像一個垃圾填滿坑,這也是為什麼資料治理在大資料實施中非常重要的原因之一。

相關文章