大資料技術原理與應用——大資料概述

人醜就該多程式設計發表於2018-07-10

這篇博文裡的好多內容之前在讀《大資料時代》時讀到過,所以就算是補上的讀書筆記?


資訊科技為大資料時代提供技術支撐

  1.儲存裝置容量不斷增加

  2.CPU處理能力大幅提升

  3.網路頻寬不斷增加


 資料產生方式的變革促成大資料時代的來臨

  1.運營式系統階段

  2.使用者原創內容階段

  3.感知式系統階段


 大資料的概念

  關於“什麼是大資料”這個問題,大家比較認可關於大資料的“4V”說法。大資料的4個“V”,或者說是大資料的四個特點,包含四個層面:資料量大(Volume)、資料型別繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)


大資料對科學研究的影響

  1.第一種正規化:實驗科學:最初的科學研究階段,人類採用實驗來解決一些科學問題。

  2.第二種正規化:理論科學:隨著科學的進步,人類開始採用數學、幾何、物理等理論,構建問題模型和解決方案。

  3.第三種正規化:計算科學:計算科學主要用於對各個科學問題進行計算機模擬和其他形式的計算。

  4.第四種正規化:資料密集型科學:在大資料環境下,一切將以資料為中心,從資料中發現問題、解決問題,真正體現資料的價值。


 大資料對思維方式的影響

  1.全樣而非抽樣

  2.效率而非精確

  3.相關而非因果


 大資料關鍵技術

  當人們談到大資料的時候,往往並非僅指資料本身,而是資料和大資料技術這二者的結合。所謂大資料技術,是指伴隨著大資料的採集、儲存、分析和應用的相關技術,是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化資料進行處理,從而獲得分析和預測結果的一系列資料處理和分析技術。

  討論大資料技術時,首先需要了解大資料的基本處理流程,主要包括資料採集、儲存、分析和結果呈現等環節。資料無處不在,網際網路網站、政務系統、零售系統、辦公系統、自動化生產系統、監控攝像頭、感測器等,每時每刻都在不斷產生資料。這些分散在各處的資料,需要採用相應的裝置或軟體進行採集。採集到的資料通常無法直接用於後續的資料分析,因為對於來源眾多、型別多樣的資料而言,資料缺失和語義模糊等問題是不可避免的,因而必須採取相應的措施有效解決這些問題,這就需要一個被稱為“資料預處理”的過程,把資料變成一個可用的狀態。資料預處理以後,會被存放到檔案系統或資料庫系統中進行儲存與管理,然後採用資料探勘工具對資料進行處理分析,最後採用視覺化工具為使用者呈現結果。在整個資料處理過程中,還必須注意隱私保護和資料安全等問題。

  因此,從資料分析全流程的角度,大資料技術主要包括資料採集與預處理、資料儲存和管理、資料處理與分析、資料安全和隱私保護等幾個層面的內容。


 大資料計算模式

  大資料處理的問題複雜多樣,單一的計算模式是無法滿足不同型別的計算需求的,MapReduce只是大資料計算模式中的一種,它代表了針對大規模資料的批量處理技術,除此之外,還有查詢分析計算、圖計算、流計算等多種大資料計算模式。

  1.批處理計算:批處理計算主要解決針對大規模資料的批量處理,也就是我們日常資料分析工作中非常常見的一類資料處理需求。

  2.流計算:流資料是指在時間分佈和數量上無限的一系列動態資料集合體,資料的價值隨著時間的流逝而降低,因此必須採用實時計算的方式給出秒級響應。流計算可以實時處理來自不同資料來源的、連續到達的流資料,經過實時分析處理,給出有價值的分析結果。

  3.圖計算:在大資料時代,許多大資料都是以大規模圖或網路的形式呈現的,如社交網路、傳染病傳播途徑、交通事故對路網的影響等,此外,許多非圖結構的大資料也常常會被轉換為圖模型後再進行處理分析。

  4.查詢分析:針對超大規模資料的儲存管理和查詢分析,需要提供實時或準實時的響應,才能更好地滿足企業經營管理需求。


大資料與雲端計算、物聯網

  1.雲端計算

    雲端計算的概念:雲端計算實現了通過網路提供可伸縮的、廉價的分散式計算能力,使用者只需要在具備網路接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。雲端計算代表了以虛擬化技術為核心、以低成本為目標、動態可擴充套件的網路應用設施,是近幾年最有代表性的網路計算技術與模式。

    雲端計算的關鍵技術:

    (1)虛擬化:虛擬化技術是雲端計算基礎架構的基石,是指將一臺計算機虛擬為多臺邏輯計算機,在一臺計算機上同時執行多個邏輯計算機,每個邏輯計算機可執行不同的作業系統,並且應用程式都可以在相互獨立的空間內執行而互不影響,從而顯著提升計算機的工作效率。

    (2)分散式儲存:面對“資料爆炸”的時代,集中式儲存已經無法滿足海量資料的儲存需求,分散式儲存應運而生。

    (3)分散式計算:面對海量資料,傳統的單指令單資料流順序執行的方式已經無法滿足快速資料處理的要求,同時,我們也不能寄希望於通過硬體效能的不斷提升來滿足這種需求,因為電晶體電路已經逐漸接近其物理上的效能極限,摩爾定律已經開始慢慢失效。

    (4)多租戶:多租戶技術目的在於使大量使用者能夠共享同一堆疊軟硬體資源,每個使用者按需使用資源,能夠對軟體服務進行客戶化配置,而不影響其他使用者的使用。

  2.物聯網

    物聯網的概念:物聯網是物物相連的網際網路,是網際網路的延伸,它利用區域性網路或網際網路等通訊技術把感測器、控制器、機器、人員和物等通過新的方式連在一起,形成人與物、物與物相連,實現資訊化和遠端管理控制。

    物聯閘道器鍵技術:

    (1)識別和感知技術:二維碼、RFID、感測器等。

    (2)網路與通訊技術:藍芽、WiFi、網際網路、2G/3G/4G移動網路等。

    (3)資料探勘與融合技術:物聯網中存在大量資料來源、各種異構網路和不同型別系統,如此大量的不同型別資料,如何有效整合、處理和挖掘,是物聯網處理層需要解決的關鍵技術問題。今天雲端計算和大資料技術的出現,為物聯網資料儲存、處理和分析提供了強大的技術支撐,海量物聯網資料可以藉助龐大的雲端計算基礎設施實現廉價儲存,利用大資料技術實現快速處理和分析,滿足各種實際應用需求。

  3.大資料與雲端計算、物聯網的關係

    雲端計算為大資料提供了技術基礎,大資料為雲端計算提供用武之地。

    物聯網是大資料的重要來源,大資料技術為物聯網資料分析提供支撐。

    雲端計算為物聯網提供海量資料儲存能力,物聯網為雲端計算技術提供了廣闊的應用空間。


 

相關文章