我們首先從大資料是什麼開始講起！下面由我來帶領大家！展開我們本次的大資料學習之旅！大資料是什麼，內容將包括大資料的產生，發展大資料的基本概念。首先我們來追溯一下大資料的產生與發展，大資料的產生和發展主要經歷了三個階段。

第一個階段，我們稱為是萌芽期！自上世紀九十年代至本世紀初，隨著資料探勘理論和資料庫技術的逐步成熟，一批商業智慧工具和知識的管理技術也開始得到應用，比如資料倉儲，專家系統知識管理系統等等。第二階段我們稱為是成熟期。本世紀的前十年 Web2.0應用的迅猛發展，非結構化資料的大量產生，使得傳統的處理方法已經難以應對，而大資料技術卻快速的突破。而大資料的解決方案也逐漸的走向成熟。大資料在成熟期形成了平行計算與分散式系統兩大核心技術。谷歌的GFS和MapReduce等大資料技術呢也受到了追捧！開源技術Hadoop平臺也開始大行其道！而第三個階段我們稱為大規模的應用期。2010年以後，呢大資料開始廣泛用到各行各業！人們開始用資料來驅動決策，社會的資訊化智慧化程度也大幅的提高。所以,大資料的發展，歷經茫崖成熟，再到大規模應用三個階段.

我們瞭解了大資料的發展歷程，那究竟什麼是大資料？關於大資料的概念眾說紛紜，甚至已經成為了一個商業問題，並且在商業出版社被大量的報導。比如福布斯的雜誌報導稱，大資料已經抵達賽特醫療保健家庭，透過使用這個分析工具，每年超過 200萬的複雜病例患者得到了幫助。紐約時報指出，資料已經成為一類新的經濟資產，就像貨幣或者是黃金一樣。而CNBC呢也曾這樣比喻，資料就像新型石油一樣，為挖掘的沒有什麼價值，但經過加工提煉以後，將會極大的助力世界發展。那麼我們究竟如何去定義大資料？其實呢到目前為止，大資料還沒有一個明確的統一的定義，不同組織機構對大資料有著不同的描述。麥肯錫認為，大資料是指大小超出了典型資料庫軟體的採集儲存管理和分析等能力的資料集。他認為大資料的一般範圍是從幾個TB到幾個pb，而維基百科給出的定義是，無法在一定時間內使用常規的軟體工具，對其內容進行抓取管理和處理的大量而複雜的資料集合。美國國家標準技術研究院給出的定義是，數量大，獲取速度快，或者是形態多樣的資料，難以使用傳統的關係型資料分析方法進行有效的分析，或者需要大規模的水平擴充套件，才能高效處理的這種資料形態。而Gartner公司認為大資料是一種體量大快速和多樣化的資訊資產，需要使用高效率和創新型的資訊科技加以處理，來提高發現洞察，做出決策和最佳化流程的能力。可見對大資料的定義還沒有統一的定論。但不論哪一種描述，關於大資料的思維特徵卻是一致公認的。那什麼才是大資料的思維特徵？呢我們來一起認識一下。首先第一個V指的是VOLUME，容量。主要指非結構化資料的規模和增長速度。因為非結構化資料佔資料總量的80%到90%，同時也比結構化資料增長快十倍到50倍，並且資料量是傳統資料庫的十倍到50倍。第二個V指的是為Variety，多元化。主要指大資料的易構和多樣性。資料有很多不同的形式，比如文字影像影片機器資料等等，這些資料大多是無模式或者是模式不明顯。第三個V值得是value，價值，主要體現在大量的不相關，資訊價值密度低，需要透過深度複雜分析，才可以對未來的趨勢和模式進行預測。第四個V指的是Velocity高效。。好，那麼接下來我們詳細分析一下思維特徵。第一個，V580畝資料的體量巨大，主要體現在從TB級別到pb級別。截至目前為止，人類生產的所有印刷材料的資料量是兩百個pb。那麼當前典型的個人計算機硬碟的容量為TB量級，而一些大企業的資料量已經接近到一B級別，這是什麼概念？呢我們來看一下容量單位的一些形象事例。比如一個pb等於1024個TB相當於50%的全美學術研究圖書館藏書的內容總和，一個1B等於1024個pb，那五個E幣就相當於至今全世界人類所講過的所有話語，一個ZB等於1024個1B如同全世界海灘上的沙子的數量總和。一個歪B等於1024ZB相當於7000為人類體內的細胞數的總和，可見呢大資料的資料量確實是海量的。第二個VVIP多樣化，其實物聯網資料網際網路資料企業行業內的資料呢都是大資料的資料組成部分。那麼大資料的多樣性主要體現在，第一資料的來源多，企業內部多個應用系統的資料，網際網路和物聯網的興起，帶動微博社交網站感測器等多種資料來源。第二，資料的種類多，儲存在關係型資料庫中的結構化資料其實呢只佔少數，而80%到90%的資料是諸如圖片音訊影片模型連線資訊文件等等一些非結構化和半結構化資料。那麼相對以往便於儲存的以文字為主的結構化資料而言，這些非結構化資料越來越多。同時這些多型別的資料對資料的處理能力也提出了更高的要求。第三，關聯性強。資料之間的頻繁互動，比如遊客在旅途中上傳的圖片和日誌，其實與遊客的位置和行程等資訊呢有很強的關聯性。因此大資料不僅體現在量的巨大，還體現在種類的豐富多樣。而第三個VV6價值。對於大資料本身而言，它的價值密度低，這是它的典型特徵。而如何去挖掘大資料的潛藏價值，像沙裡淘金一樣，從海量資料中挖掘稀有並且珍貴的資訊，那麼才是大資料的核心。那麼第四個V指的是什麼？呢第四個，V my last高校。在大資料領域能否實現實施的資料流處理，是區別大資料引用和傳統資料倉儲技術BA的關鍵差別之一。那比如我們以一秒為臨界點，對於大資料應用而言，要求必須在一秒內形成答案，否則處理結果就是過時或者是無效的。根據I dc的數字宇宙報告，預計到2020年，全球資料的使用量將達到35.2個ZB那麼在如此海量的資料面前，處理資料的效率就是企業的生命。好，以上就是大資料的思維特徵。

下一次我們將繼續探索大資料，如想進一步影片學習，請請訪問華為雲學院（ https://edu.huaweicloud.com/ ）

我在華為雲學院等你，不見不散喔 ~

大資料是什麼？華為雲學院帶你探索大資料之旅

相關文章