大資料的定義與特徵

大資料(big data)是這樣的資料集合:資料量增長速度極快,用常規的資料工具無法在一定的時間內進行採集、處理、儲存和計算的資料集合。

作者認為具有以下五大特徵(4V+1O)的資料才稱之為大資料,即:

資料量大(Volume)。第一個特徵是資料量大,包括採集、儲存和計算的量都非常大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。

型別繁多(Variety)。第二個特徵是種類和來源多樣化。包括結構化、半結構化和非結構化資料,具體表現為網路日誌、音訊、視訊、圖片、地理位置資訊等等,多型別的資料對資料的處理能力提出了更高的要求。

價值密度低(Value)。第三個特徵是資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。隨著網際網路以及物聯網的廣泛應用,資訊感知無處不在,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題。

速度快時效高(Velocity)。第四個特徵資料增長速度快,處理速度也快,時效性要求高。比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法儘可能要求實時完成推薦。這是大資料區別於傳統資料探勘的顯著特徵。

資料是線上的(Online)。資料是永遠線上的,是隨時能呼叫和計算的,這是大資料區別於傳統資料最大的特徵。現在我們所談到的大資料不僅僅是大,更重要的是資料變的線上了,這是網際網路高速發展背景下的特點。比如,對於叫車工具,客戶的資料和出租司機資料都是實時線上的,這樣的資料才有意義。如果是放在磁碟中而且是離線的,這些資料遠遠不如線上的商業價值大。

關於大資料特徵方面,特別要強調的一點是資料是線上的,因為很多人認為資料量大就是大資料,往往忽略了大資料的線上特性。資料只有線上,即資料在與產品使用者或者客戶產生連線的時候才有意義。如某使用者在使用某網際網路應用時,其行為及時的傳給資料使用方,資料使用方通過某種有效加工後(通過資料分析或者資料探勘進行加工),進行該應用的推送內容的優化,把使用者最想看到的內容推送給使用者,也提升了使用者的使用體驗。

大資料發展過程的重大事件

2005年Hadoop專案誕生。Hadoop其最初只是雅虎公司用來解決網頁搜尋問題的一個專案,後來因其技術的高效性,被Apache Software Foundation公司引入併成為開源應用。Hadoop本身不是一個產品,而是由多個軟體產品組成的一個生態系統,這些軟體產品共同實現全面功能和靈活的大資料分析。從技術上看,Hadoop由兩項關鍵服務構成:採用Hadoop分散式檔案系統(HDFS)的可靠資料儲存服務,以及利用一種叫做MapReduce技術的高效能並行資料處理服務。這兩項服務的共同目標是,提供一個使對結構化和複雜資料的快速、可靠分析變為現實的基礎。

2008年末,“大資料”得到部分美國知名電腦科學研究人員的認可,業界組織計算社群聯盟(Computing Community Consortium),發表了一份有影響力的白皮書《大資料計算:在商務、科學和社會領域建立革命性突破》。它使人們的思維不僅侷限於資料處理的機器,並提出:大資料真正重要的是新用途和新見解,而非資料本身。此組織可以說是最早提出大資料概念的機構。

2009年印度政府建立了用於身份識別管理的生物識別資料庫,聯合國全球脈衝專案已研究了對如何利用手機和社交網站的資料來源來分析預測從螺旋價格到疾病爆發之類的問題。

2009年中,美國政府通過啟動Data.gov網站的方式進一步開放了資料的大門,這個網站向公眾提供各種各樣的政府資料。該網站的超過4.45萬量資料集被用於保證一些網站和智慧手機應用程式來跟蹤從航班到產品召回再到特定區域內失業率的資訊,這一行動激發了從肯亞到英國範圍內的政府 們相繼推出類似舉措。

2009年,歐洲一些領先的研究型圖書館和科技資訊研究機構建立了夥伴關係致力於改善在網際網路上獲取科學資料的簡易性。

2010年2月,肯尼斯庫克爾在《經濟學人》上發表了長達14頁的大資料專題報告《資料,無所不在的資料》。庫克爾在報告中提到:“世界上有著無法想象的巨量數字資訊,並以極快的速度增長。從經濟界到科學界,從政府部門到藝術領域,很多方面都已經感受到了這種巨量資訊的影響。科學家和計算機工程 師已經為這個現象創造了一個新詞彙:“大資料”。庫克爾也因此成為最早洞見大資料時代趨勢的資料科學家之一。

2011年2月,IBM的沃森超級計算機每秒可掃描並分析4TB(約2億頁文字量)的資料量,並在美國著名智力競賽電視節目《危險邊緣》“Jeopardy”上擊敗兩名人類選手而奪冠。後來紐約時報認為這一刻為一個“大資料計算的勝利。”

2011年5月,全球知名諮詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)釋出了一份報告——《大資料:創 新、競爭和生產力的下一個新領域》,大資料開始備受關注,這也是專業機構第一次全方面的介紹和展望大資料。報告指出,大資料已經滲透到當今每一個行業和業 務職能領域,成為重要的生產因素。人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。報告還提到,“大資料”源於資料生產和 收集的能力和速度的大幅提升——由於越來越多的人、裝置和感測器通過數字網路連線起來,產生、傳送、分享和訪問資料的能力也得到徹底變革。

2011年12月,工信部發布的物聯網十二五規劃上,把資訊處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量資料儲存、資料探勘、影像視訊智慧分析,這都是大資料的重要組成部分。

2012年1月份,瑞士達沃斯召開的世界經濟論壇上,大資料是主題之一,會上釋出的報告《大資料,大影響》(Big Data, Big Impact) 宣稱,資料已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。

2012年3月,美國奧巴馬政府在白宮網站釋出了《大資料研究和發展倡議》,這一倡議標誌著大資料已經成為重要的時代特徵。2012年3月22 日,奧巴馬政府宣佈2億美元投資大資料領域,是大資料技術從商業行為上升到國家科技戰略的分水嶺,在次日的電話會議中,政府對資料的定義“未來的新石油”,大資料技術領域的競爭,事關國家安全和未來。並表示,國家層面的競爭力將部分體現為一國擁有資料的規模、活性以及解釋、運用的能力;國家數字主權體現對資料的佔有和控制。數字主權將是繼邊防、海防、空防之後,另一個大國博弈的空間。

2012年4月,美國軟體公司Splunk於19日在納斯達克成功上市,成為第一家上市的大資料處理公司。鑑於美國經濟持續低靡、股市持續震盪的大背景,Splunk首日的突出交易表現尤其令人們印象深刻,首日即暴漲了一倍多。Splunk是一家領先的提供大資料監測和分析服務的軟體提供商,成立於2003年。Splunk成功上市促進了資本市場對大資料的關注,同時也促使IT廠商加快大資料佈局。

2012年7月,聯合國在紐約釋出了一份關於大資料政務的白皮書,總結了各國政府如何利用大資料更好地服務和保護人民。這份白皮書舉例說明在一個資料生態系統中,個人、公共部門和私人部門各自的角色、動機和需求:例如通過對價格關注和更好服務的渴望,個人提供資料和眾包資訊,並對隱私和退出權力提 出需求;公共部門出於改善服務,提升效益的目的,提供了諸如統計資料、裝置資訊,健康指標,及稅務和消費資訊等,並對隱私和退出權力提出需求;私人部門出於提升客戶認知和預測趨勢目的,提供彙總資料、消費和使用資訊,並對敏感資料所有權和商業模式更加關注。白皮書還指出,人們如今可以使用的極大豐富的資料資源,包括舊資料和新資料,來對社會人口進行前所未有的實時分析。聯合國還以愛爾蘭和美國的社交網路活躍度增長可以作為失業率上升的早期徵兆為例,表明政府如果能合理分析所掌握的資料資源,將能“與數俱進”,快速應變。

2012年7月,為挖掘大資料的價值,阿里巴巴集團在管理層設立“首席資料官”一職,負責全面推進“資料分享平臺”戰略,並推出大型的資料分享平臺——“聚石塔”,為天貓、淘寶平臺上的電商及電商服務商等提供資料雲服務。隨後,阿里巴巴董事局主席馬雲在2012年網商大會上發表演講,稱從2013年1月 1日起將轉型重塑平臺、金融和資料三大業務。馬雲強調:“假如我們有一個資料預報臺,就像為企業裝上了一個GPS和雷達,你們出海將會更有把握。”因此,阿里巴巴集團希望通過分享和挖掘海量資料,為國家和中小企業提供價值。此舉是國內企業最早把大資料提升到企業管理層高度的一次重大里程碑。阿里巴巴也是最早提出通過資料進行企業資料化運營的企業。

2014年4月,世界經濟論壇以“大資料的回報與風險”主題釋出了《全球資訊科技報告(第13版)》。報告認為,在未來幾年中針對各種資訊通訊技術的政策甚至會顯得更加重要。在接下來將對資料保密和網路管制等議題展開積極討論。全球大資料產業的日趨活躍,技術演進和應用創新的加速發展,使各國政府 逐漸認識到大資料在推動經濟發展、改善公共服務,增進人民福祉,乃至保障國家安全方面的重大意義。

2014年5月,美國白宮釋出了2014年全球“大資料”白皮書的研究報告《大資料:抓住機遇、守護價值》。報告鼓勵使用資料以推動社會進步,特別是在市場與現有的機構並未以其他方式來支援這種進步的領域;同時,也需要相應的框架、結構與研究,來幫助保護美國人對於保護個人隱私、確保公平或是防止歧視的堅定信仰。

大資料相關技術的發展

大資料技術是一種新一代技術和構架,它以成本較低、以快速的採集、處理和分析技術,從各種超大規模的資料中提取價值。大資料技術不斷湧現和發展, 讓我們處理海量資料更加容易、更加便宜和迅速,成為利用資料的好助手,甚至可以改變許多行業的商業模式,大資料技術的發展可以分為六大方向:

(1)在大資料採集與預處理方向。這方向最常見的問題是資料的多源和多樣性,導致資料的質量存在差異,嚴重影響到資料的可用性。針對這些問題,目前很多公司已經推出了多種資料清洗和質量控制工具(如IBM的Data Stage)。

(2)在大資料儲存與管理方向。這方向最常見的挑戰是儲存規模大,儲存管理複雜,需要兼顧結構化、非結構化和半結構化的資料。分散式檔案系統和分 布式資料庫相關技術的發展正在有效的解決這些方面的問題。在大資料儲存和管理方向,尤其值得我們關注的是大資料索引和查詢技術、實時及流式大資料儲存與處理的發展。

(3)大資料計算模式方向。由於大資料處理多樣性的需求,目前出現了多種典型的計算模式,包括大資料查詢分析計算(如Hive)、批處理計算(如 Hadoop MapReduce)、流式計算(如Storm)、迭代計算(如HaLoop)、圖計算(如Pregel)和記憶體計算(如Hana),而這些計算模式的混合計算模式將成為滿足多樣性大資料處理和應用需求的有效手段。

(4)大資料分析與挖掘方向。在資料量迅速膨脹的同時,還要進行深度的資料深度分析和挖掘,並且對自動化分析要求越來越高,越來越多的大資料資料分析工具和產品應運而生,如用於大資料探勘的R Hadoop版、基於MapReduce開發的資料探勘演算法等等。

(5)大資料視覺化分析方向。通過視覺化方式來幫助人們探索和解釋複雜的資料,有利於決策者挖掘資料的商業價值,進而有助於大資料的發展。很多公司也在開展相應的研究,試圖把視覺化引入其不同的資料分析和展示的產品中,各種可能相關的商品也將會不斷出現。視覺化工具Tabealu 的成功上市反映了大資料視覺化的需求。

(6)大資料安全方向。當我們在用大資料分析和資料探勘獲取商業價值的時候,黑客很可能在向我們攻擊,收集有用的資訊。因此,大資料的安全一直是企業和學術界非常關注的研究方向。通過檔案訪問控制來限制呈現對資料的操作、基礎裝置加密、匿名化保護技術和加密保護等技術正在最大程度的保護資料安全。

網際網路的發展是大資料發展的最大驅動力

截至2014年6月,我國網民規模達6.32億,較2013年底增加1442萬人,網際網路普及46.9%,即接近一半的中國人在使用網際網路。網際網路的增長速度超越了很多人的預期:4年前即2010年6月,網際網路普及率為31.8%,而僅經歷了四年,網際網路的普及率增加了超過15%。

更為重要的是,CNNIC的資料還顯示,截至2014年6月,我國網民上網裝置中,手機使用率達83.4%,首次超越傳統PC整體使用率(80.9%),手機作為第一大上網終端裝置的地位更加鞏固,手機使得上網變得更加隨時隨地,手機上網更加滲透到人們的日常工作和生活中。

因此,網際網路普及使得網民的行為更加多元化,通過網際網路產生的資料發展更加迅猛,更具代表性。網際網路世界中的商品資訊、社交媒體中的圖片、文字資訊以及視訊網站的視訊資訊,網際網路世界中的人與人互動資訊、位置資訊等,都已經成為大資料的最重要也是增長最快的來源。

作者:傅志華