大資料技術概論

weixin_51491739發表於2020-12-20

大資料技術概論

大資料技術的產生
大資料的基本概念
●大資料簡介:
大資料是規模非常巨大和複雜的資料集,傳統資料庫管理工具處理起來面臨很多問題,比如說獲取、儲存、檢索、共享、分析和視覺化,資料量達到PB、EB或ZB的級別。
大資料有三個V:
一是資料量(Volume),資料量是持續快速增加的;
二是高速(Velocity)的資料;三是多樣化(Variety)資料型別和來源。
隨著雲時代的來臨,大數(Big data)也吸引了越來越多的關注。支撐大資料以及雲端計算的底層原則是一樣的,即規模化、自動化、資源配置、自愈性。
●大資料的處理流程
資料採集資料統計分析資料探勘
1.資料採集:
利用多種輕型資料庫來接收發自客戶端的資料,並且使用者可以通過這些資料庫來進行簡單的查詢和處理工作,具有併發性高的特點。經常使用的產品有:MySQL,Oracle,HBase,RedisMongoDB和等,並且這些產品的特點各不相同
2.統計分析:
將海量的來自前端的資料快速匯入到一個集中的大型分散式資料庫或者分散式儲存叢集,利用分散式技術來對儲存於其內的集中的海量資料進行普通的查詢和分類彙總等,以此滿足大多數常見的分析需求。會面臨:匯入資料量大,查詢涉及的資料量大,查詢請求多的挑戰。
3資料探勘
基於前面的查詢資料進行數括挖掘,來滿足高階別的資料分析需求:這一步面臨演算法複雜,並且計算涉及的資料量和計算量都大的難題。一般使用R/SAS等統計軟體。
●大資料在各個領的應用
諮詢業:BM對50000名諮詢顧問的檔案建立了數學模型,從而計算機可以對不同的專案自動挑選出最合適的團隊。廣告業:矽谷的最優邊界公司對網上廣告提供了優化服務,對每一條網上廣告都可以計算出反應率和投資收益率市場營業:
UMBRIA公司通過數值計算選擇部落格網站上應該跳出來的廣告產品,通過向量數學,可以確認漢堡王的廣告的確對年輕人的目標客戶最有效媒體業:
紐約的 INFORM公司運用幾何學原理將文章根據單詞和片語進行轉換,存入虛圖書館,然後根據讀者檔案挑選出最適合讀者閱讀的文章提供給讀者社交網路:
社交網路產生了海量使用者以及實時和完整的資料,同時社交網路也記錄了使用者群體的情緒,通過深入挖握這些資料來了解使用者,然後將這些分析後的資料資訊推給需要的品牌商家或是微博營銷公司。
●IBM的大資料戰略
基於“3A5步”動態路線圖,IBM提出了“大數
據平臺”架構。該平臺的四大核心能力包括
Hadoop系統、流計算
(StreamComputing)、資料倉儲(DataWarehouse)和資訊整合與治理(InformationIntegration and Governance)。在這裡插入圖片描述
大資料產生的原因
1,網際網路的發展,產生海量可獲得的非結構化資料。
2,傳統資料庫在處理非結構化資料出現瓶頸。
3,分散式技術和搜尋技術的發展。
大資料概念的提出
1、“大資料的名稱來自於未來學家托夫勒所著的《第三次浪潮》儘管“大資料”這個詞直到最近才受到人們的高度關注,但早在1980年,茗名未來學家托夫勒在其所著的《第三次浪潮》中就熱情地將“大資料”稱頌為“第三次浪潮的華彩樂章”。《自然》雜誌在2008年月推出了名為大資料”的封面專欄。從2009年開始“大資料”才成為網際網路技術行業中的熱門詞彙。
2、最早應用大資料的是麥肯錫公司(McKinsey)對“大資料”進行收集和分析的設想,來自於世界著名的管理諮詢公司麥肯錫公司。麥肯錫公司右到了各種網路平臺記錄的個人淘備潛在的商業價值,於是投入大量人力祕密進行調研,在2011年6月釋出了關於大資料”的報告:該報告對“大資料”的影響、關鍵技術和應用領域等都進行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而後逐漸受到了各行各業關注。
3、“大資料的特點由維克托邁爾恩伯格和肯尼斯庫克耶在大資料時代》中提出過維克托邁爾舍恩怕格和肯尼克耶編寫的大資料時代中提出:“大資料的4V特點: volume(資料量大)、 Velocity入和處理速度快)、 Variely(資料多樣性)、 Value(價值密度低)。這些特點基本上得到了大家的認可,凡提到“大資料特點的文章,基本上採用了這4個特點。
4、在雲端計算出現之後大資料才凸顯其真正價值自從有了雲端計算伺服器,“大資料”才有了可以執行的軌道,才可以實現其真正的價值有人就形象地將種“大資料的應用比作一輛輛汽車”,支撐起這些“汽車”執行的“公路“就是雲端計算,最名的例項就是Google搜尋引擎面對海量Weh資料:Google於2006年首先提出雲端計算的概念。支撐Gogl內部各種“大資料應用的,正是 Gougle公司自行研發的雲端計算伺服器。
“大資料”的基本判斷標準
什麼樣的資料才是“大資料”?透過層層的迷霧和眾說紛紜,可以講:有了雲端計算伺服器才有了“大資料”應用的價值。維克托曾說過:“假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測試儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的資料可能會是錯誤的,也可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這裡麵包含了更多的資料,而它提供的價值不僅能抵消掉錯誤資料造成的影響,還能提供更多的額外價值。現在想想增加讀數頻率的這個事情。如果每隔一分鐘就測量一下溫度,十次甚至百次的話,不僅讀數可能出錯,連時間先後都可能搞混。試想,如果資訊在網路中流動,那麼一條記錄很可能在傳輸過程中被延遲,在其到達的時候已經沒有意義了,甚至乾脆在奔湧的資訊洪流中徹底迷失。雖然得到的資訊不再準確,但收集到的數量龐大的資訊讓我們放棄嚴格精確的選擇變得更為划算為了高頻率而放棄了精確性,結果觀察到了一些本可能被錯過的變化。雖然如果能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力於避免錯誤相比,對錯誤的包容會帶來更多好處。為了規模的擴大,我們接受適量錯誤的存在。”其中描述葡萄園測量儀採集的資料就是大資料。大資料實質上是全面、混雜的並且具有資料量大、輸入和處理速度快、資料多樣性、價值密度低特點的資料。
第四正規化——大資料對科學研究產生的影響
吉姆·格雷是一個傳奇人物。他是1998年圖靈獎得主,著名的電腦科學家。2007年1月28日,他在自己酷愛的航海運動中駕駛帆船失蹤於茫茫大海之上。短短17天之前,1月11日,他在加州山景城召開的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)上,發表了他的著名演講:科學方法的一次革命。在這篇演講中,吉姆·格雷將科學研究的正規化分為四類——除了之前的實驗正規化、理論正規化、模擬正規化之外,新的資訊科技已經促使新的正規化出現——資料密集型科學發現(Data-Intensive Scientific Discovery)。

這個第四正規化,所謂的“資料密集型”,也就是現在我們所稱的“大資料”。
1

吉姆·格雷(左)

一、何謂“第四正規化”

“正規化”一詞,英文名Paradigm,一般指已經形成模式的,可直接套用的某種特定方案或路線。在電腦科學界,程式設計有程式設計正規化,資料庫有資料庫架構的正規化,不一而足。
總之,你將其認為是某種必須遵循的規範或大家都在用的套路即可。

在科學發現領域,第一正規化,是指以實驗為基礎的科學研究模式。簡單說來,就是以伽利略為代表的文藝復興時期的科學發展初級階段。在這一階段,伽利略老師爬上比薩斜塔扔倆鐵球,掐著脈搏為擺動計時等等我們耳熟能詳的故事,為現代科學開闢了嶄新的領域,開啟了現代科學之門。
2
當實驗條件不具備的時候,為了研究更為精確的自然現象,第二正規化,即理論研究為基礎的科學研究模式隨之而來。在這個階段,科學家們會將無法用實驗模擬的科學原理用模型簡化,去掉一些複雜的因素,只留下關鍵因素,然後通過演算得到結論。比如我們熟知的牛頓第一定律:任何物體都要保持勻速直線運動或靜止狀態,直到外力迫使它改變運動狀態為止。這個結論就是在假設沒有摩擦力的情況下得出的。令人欣喜的是,當時的理論科學與實驗科學結合得如此完美,任何一個理論都很容易被實驗所證實。因此第二正規化很快成為了重要的科研正規化。
3
第二正規化發展到極致是19世紀末,當時牛頓三大定律解釋了經典力學,麥克斯韋理論解釋了電磁學。經典物理學的大廈構建得巨集偉壯觀,而且似乎毫無瑕疵。

結果在20世紀初,天邊的兩朵烏雲無情地破壞了它的完美。量子力學和相對論兩座暫新的高山拔地而起,那是科學的另一個黃金時代。然而,不論是量子力學還是相對論,不約而同地以理論研究為主,超凡的頭腦和計算超越了實驗。儘管在一段時間之後,經過複雜設計的實驗終究還是證實了計算的理論。因此每一位中學物理老師都會把牛頓和愛因斯坦相提並論,並稱人類歷史上最偉大的兩位物理學家。

隨著驗證理論的難度和經濟投入越來越高,正在科學研究逐漸力不從心之際,另一位頂尖科學家站了出來。馮·諾依曼老師,在上世紀中期提出了現代電子計算機的架構,並一直持續到今天。
在這裡插入圖片描述
馮·諾依曼

於是,隨著電子計算機的高速發展,第三正規化,即利用電子計算機對科學實驗進行模擬模擬的模式得到迅速普及。不論在基礎科學研究還是工程實驗中,計算機模擬越來越多地取代實驗,成為科研的常用方法。

半個世紀之後的2013年,諾貝爾化學獎甚至授予了用計算機模擬開發多尺度複雜化學系統模型的科學家卡普拉斯、萊維特和瓦謝勒。諾貝爾化學獎評選委員會在當天發表的宣告中說:現在,對化學家來說,計算機是同試管一樣重要的工具,計算機對真實生命的模擬已為化學領域大部分研究成果的取得立下了“汗馬功勞”。

那麼,當時間進入網際網路時代,吉姆·格雷認為,鑑於資料的爆炸性增長,資料密集正規化理應並且已經從第三正規化即計算正規化中分離出來,成為一個獨特的科學研究正規化,即“第四正規化”。

二、“第四正規化”的特點

同樣是計算,第四正規化與第三正規化有什麼區別呢?

最顯著的區別就是:

計算正規化是先提出可能的理論,再蒐集資料,然後通過計算模擬進行理論驗證。

而資料密集型正規化,是先有了大量的已知資料,然後通過計算得出之前未知的可信的理論。

簡單舉個例子說明吧。以前我們對一個問題(比如霧霾)進行研究是這樣的:首先,發現問題,比如出現霧霾了,想知道霧霾是什麼,怎麼預防。其次,發現這個事兒好像不那麼簡單,霧霾的形成機理除了源頭、成分等東西之外,還包括氣象因素,包括地形、風向、溼度等等,引數之多超出了我們的控制範圍。那麼我們要怎麼辦呢?去除一些看起來不怎麼重要的引數,保留一些簡單的引數,提出一個理論。然後蒐集資料,用計算機進行模擬,並不斷對理論進行修正。最後得出可信度比較高的結果,以此來對可能形成霧霾天氣的預測。

這條途徑大家都熟悉,這就是第三正規化。

但是,這條途徑中有一個看起來很小的問題:你如何確定哪些引數是重要的,哪些是不重要的?那些看起來不重要的引數,會不會在某些特定條件下,起到至關重要的作用?畢竟南美洲的一隻蝴蝶扇扇翅膀都可能引起印度洋的風暴啊不是麼?

從這一點來看,能夠獲取最全面的資料,也許才能真正探尋到霧霾的成因,以及做出更科學的預測。那麼第四正規化就是這樣一個研究方法。

首先,佈置海量的監測點,收集海量的資料。海量的意思就是比傳統意義上多得多。傳統意義上我們在北京市佈置幾十個上百個監測點,海量的意思……嗯,我們假設每款手機都自帶PM2.5測量功能,這樣全北京市就有2000萬的監測點,而且這些監測點還有空間的移動資訊。這樣相對於固定監測點所產生的資料,就是海量資料。

其次,利用這些資料,分析得出霧霾的形成原因和預測。

最後,驗證預測,從中總結出理論。

大家已經看到了,第二和第三步我都只用了一句話。不是因為它很簡單,恰恰相反,而是因為它太複雜,我無法在這篇小文章中詳細闡述。

事實上,在當今,許多研究人員所面臨的最大問題,已經不是缺少資料,而是面對太多的資料,不知道怎麼來使用它們。因為這種體量的資料,基本上可以認為,已經超出了普通人的理解和認知能力。

幸運的是我們有了超級計算機,有了計算叢集,有了超大的分散式資料庫,還有了基於網際網路的雲端計算。這就使得運用第四正規化的科學研究成為了可能。
三、“第四正規化”的挑戰

第四正規化科研已經在氣象和環境、生物和醫學方面取得了很大進展,但很明顯,隨著移動網際網路的發展,各行各業產生的資料呈現爆炸式的增長,科研人員所面對的各個領域的資料只會越來越多。那麼問題來了,實現第四正規化的科研,從中發現更多更新的成果,所面臨的挑戰有哪些呢?

第一,不同結構資料的整合。

作為一個研究霧霾的人員,我需要氣象資料,還需要工廠排放的資料、汽車尾氣的資料,這些不同來源的資料勢必有不同的形態。簡單點說,一個excel表跟一個word文件,怎麼把它們結合起來使用(當然實際情況比這個複雜得多)。

這是一開始我們要使用第四正規化時就會面對的最大問題。

第二,海量資料的處理。

你使用的excel表可以處理多少條資料?很多人可能不知道,一個工作表是65535行(2的16次方=65536)和255列(2的8次方=256)。桌面使用的Access資料表呢?我實際使用中,基本上超過十萬條速度就會很慢了。SQL Server或者Oracle這類商用資料庫?百萬到千萬級資料記錄問題不大,過億甚至到千億的量級,憑藉分散式處理也還可以支撐。但更多呢?千萬億量級呢?

不要以為千萬億量級是一個很遙遠的概念。簡單起見,不按1024按1000算,一MB就是一百萬Byte,一GB就是十億,一TB就是萬億,一PB就是千萬億……PB後面是EB、ZB、YB。

嗯,阿里巴巴2014年3月宣佈其資料量已經超過100PB。所以說,當你想剁手的時候,想像一下你給這麼多資料裡所做的貢獻也不過是滄海一粟,估計負罪感會減輕很多吧。

為了解決這麼多資料的問題,常見的資料庫肯定是隻能攤手了。好在做搜尋引擎的那些人早就要面對這個問題,然後他們也比較好地解決了這個問題。谷歌的MapReduce架構,阿帕奇在此基礎上弄出的Hadoop,幾年的功夫就席捲了計算機界,成為目前分析大資料的領先平臺。所以現在這個問題暫時算是解決了,當然了,永遠只能是“暫時”解決。

第三,演算法的發展。

其實針對大資料的演算法沒多少好說的,基本上還是最開始那些演算法。最基本的,貝葉斯、決策樹、k-關聯演算法、聚類分析。值得一提的是人工智慧,從70年代發展以後,近幾年人工智慧倒是藉著大資料的東風發展了一把。因為人工智慧主要依靠大量資料的訓練,所以資料越多,對人工智慧的訓練就越靠譜。因此類似於人工智慧、遺傳演算法之類的分層次不太可控的演算法,應該是發展方向。

第四,研究結論的展現。

這是值得一提的方面。對於大資料的分析,展現出的結論一般人未必能直觀地瞭解。本來嘛,過億數量級的資料,已經超出了人類統計學的理解能力。如何將其展現給人類(甲方/使用者/普通群眾),則是一個如何將神化的東西接地氣的問題。大資料分析結果的視覺化,在近幾年確實是一個熱點。另一方面,移動互聯時代,讀圖比讀文字要直觀得多(本文只有文字而沒有圖是一大缺陷,希望我羅裡吧嗦的文字能夠讓看的人看得懂)。大家在微博上看到的大部分大資料分析結論,都是圖片更直觀。因此,如何將研究結果展現出來,讓人腦能夠接受,這也是一個很重要的問題。

資料的視覺化展示

四、高校利用“第四正規化”開展科研

本來作為科普文,到第三部分也就可以結束了。但身為高校的一份子,有些事情還是想繼續說說,遂有此部分文字。

作為科研的主力軍,我國高校承擔了國家70%以上的科研專案,並取得了大量的科研成果。同時,自上世紀八十年代以來,我國高校迅速經過第一和第二正規化的科研訓練,很快接受了第三正規化。計算機模擬成為科研中快速追趕世界領先水平的重要手段。

然而,面對大資料海嘯(這個詞已經取代了“浪潮”成為更形象的比喻了)的第四正規化,我國高校卻面臨一定的困局。

首先,收集並管理海量資料,需要巨量的投入。沒有一所高校或研究機構能夠負擔上千萬臺伺服器這樣的投入。另一方面,在網際網路和雲端計算技術已經發展成熟的時代,重複投入建設也是一種巨大的浪費。

其次,大部分高校尚未能理解大資料對於科研意味著什麼。提出理論、進行模擬和模擬、得到結論這一傳統步驟仍然是主要的研究方式,更遑論大資料的基本原理和分析方法,很多科研人員更是所知寥寥。

這一困局無法突破,科研的未來只能繼續跟在別人身後亦步亦趨,難以在工程學科、社會學科等方面得出重大的成果。而如果能夠突破這一困局,或許將成為我國整個科技工作實現彎道超車的關鍵。事實上,非洲一些貧困國家的科研,已經通過網際網路實現與歐洲或北美的共同研究,並取得了相當快的進展。利用歐洲和北美積累的科研大資料,非洲一些國家比如肯亞、南非、阿爾及利亞的科研水平得到了大幅的提高。

傳統大資料研究的步驟

(作者)個人認為,要積極擁抱科研的“第四正規化”,國內高校需要在以下幾個方面取得突破:

1、儘快搭建自身的虛擬雲平臺,為科研人員提供虛擬計算空間。目前浙江大學已經計劃與阿里巴巴合作建設私有云,將來為每位教師提供個人的計算空間服務。

2、將雲端計算、大資料分析技術作為基礎課程設定,使其作為科研的基本工具和必要科研素質。

3、與大型網際網路企業進行合作,作為科研平臺建設的一部分,力爭以低廉價格獲取各類海量資料和計算資源。在這方面,史丹佛大學與亞馬遜雲服務的合作可作借鑑。亞馬遜為美國大學提供廉價的雲端計算資源及可供分析的資料資源,解脫了大學對於這方面巨量投入的負擔,同時也使得亞馬遜積累的海量資料能夠得到更好的利用。

4、以交叉學科平臺建設、協同創新中心建設等多樣化的科研模式創新,促進不同型別不同來源資料的整合,形成新知識新發現的不斷湧現。

綜上,資料密集型科技發現正規化,超越了時間和空間的限制,也超越了學科藩籬,是科技發展史上難得的契機。抓住其發展方向,擴大其應用範圍,實現我國科研的跨越式發展並非天方夜譚。
雲端計算與大資料的關係
雲端計算:雲端計算是通過網際網路提供全球使用者計算力、儲存服務,為網際網路資訊處理提供硬體基礎。雲端計算,簡單說就是把你自己電腦裡的或者公司伺服器上的硬碟、CPU都放到網上,統一動態呼叫,現在比較有名的雲端計算服務商是亞馬遜的AWS。
大資料:大資料運用日趨成熟的雲端計算技術從浩瀚的網際網路資訊海洋中獲得有價值的資訊進行資訊歸納、檢索、整合,為網際網路資訊處理提供軟體基礎。大資料,簡單說,就是把所有的資料放到一起分析,找到關聯,實現預測。這裡的所有資料對應的是之前的抽樣調研取得的部分資料。
雲端計算與大資料的關係:
雲端計算是基礎,沒有云計算,無法實現大資料儲存與計算。大資料是應用,沒有大資料,雲端計算就缺少了目標與價值。兩者都需要人工智慧的參與,人工智慧是網際網路資訊系統有序化後的一種商業應用。這才是:雲端計算與大資料真正的出口!
而商業智慧中的智慧從何而來?方法之一就是通過大資料這個工具來對大量資料進行處理,從而得出一些關聯性的結論,從這些關聯性中來獲得答案,因此,大資料是商業智慧的一種工具。 而大資料要分析大量的資料,這對於系統的計算能力和處理能力要求是非常高的,傳統的方式是需要一個超級計算機來進行處理,但這樣就導致了計算能力空的時候閒著、忙的時候又不夠的問題, 而云計算的彈性擴充套件和水平擴充套件的模式很適合計算能力按需呼叫,因此,雲端計算為大資料提供了計算能力和資源等物質基礎。

大資料的4V特徵

大資料的主要應用及行業推動力量

1.主要應用
1)聯網企業可以應用大資料技術,通過監控並分析每日產生的幾百GB的網路廣告使用者點選資料,瞭解哪些使用者在哪些時段點選廣告,從而判斷廣告投放是否有價值,並及時進行調整。

2)智慧電網可通過大資料技術對使用者的用電資料進行監測,智慧電錶每隔幾分鐘就將這些資料採集併傳送到後端叢集中,之後叢集就會對這數億條資料進行分析,得出使用者大概的用包模式,根據用電模式來調節電力生產,這樣就能夠有效避免電力資源的浪費。

3)車聯網應用大資料技術。車載終端每隔幾分鐘都會上傳一些路況資料到後 端資料叢集縣,後臺會分析這些資料來判斷大致路況是什麼情況,之後將有價值的路況資訊推送到客戶巖,能夠幫助客戶節省在路上的時間。
4)醫療大資料。在醫療行業,每個人看病都有病例,如果把全國幾千萬病例都彙總起來c後進行資料分析和資料處理,就會從中找出一一些模式和規律,通過這些模式和規律可以非常助於醫生對各種疾病的診治。
2.基本應用
大資料在許多行業都有應用,比如製造業、金融業、汽車行業、網際網路行業、餐飲行業、電信行業、能源行業、物流行業、城市管理、生物醫學、功能安全領域等等。具體的應用有產品故障診斷與預測、信貸風險分析、商品推薦和針對性廣告投放、流行病預測、犯罪預測等等

我國政府推動大資料行業發展
大資料已成為當前經濟發展和國家競爭力提升的新引擎,不但促進社會創新,還引起社會結構的重大變革,給全球帶來了深遠影響。科多大資料帶你走進各地方政府的大資料發展規劃。

1.地方政府的大資料發展計劃簡介(1)廣東:

2012年12月出臺《廣東省實施大資料戰略工作方案》,2014年2月成立廣東省大資料管理局作為專門職能部門,負責政府大資料公開和開發引導,2014年5月出臺《廣東省資訊化促進條例》,作為對大資料戰略的制度保障。整體來看,廣東省大資料戰略側重於在政府職能轉變時期提升公共服務水平,促進政府和社會的良性互動。

(2)重慶:

2013年6月釋出《重慶市大資料行動計劃》,其中涉及內容較為全面,包括建設大資料產業基地,結合政府和社會的力量構建大資料採集體系,鼓勵社會資本加入開發公共服務大資料應用,重點在於結合前期雲端計算髮展框架,完善大資料產業生態鏈的建設。

(3)上海:

2013年7月釋出《上海推進大資料研究合發展三年行動計劃(2013-2015)》,提出大資料公共服務平臺並具體規劃了6個公共服務領域,2014年5月提出通過上海政府資料服務平臺向公眾開放政府大資料的具體計劃,並初步投入試運營,其戰略部署重視大資料資源的共享開發,構建大資料產業鏈。

(4)天津:

2013年11月,釋出《濱海新區大資料行動方案(2013-2015)》,指向ICT相關4個領域的重點建設,包括引進大資料企業、建設資料中心等,其中包括1個大資料產業示範基地和3個產業園區,目標是建設具有國際水平的大資料資源聚集區和大資料產業中心。

(5)貴州:

2014年3月釋出《關於加快大資料產業發展應用若干政策的意見》和《貴州省大資料產業發展應用規劃綱要(2014~2020年)》,設定了建設大資料產業示範園區,引進和培育大資料龍頭企業,通過大資料帶動相關產業發展,引進和培養大資料人才的戰略目標。其中有對於公共大資料資源的開發共享、電子政務雲等多項“雲上貴州”工程的具體規劃。

(6)陝西:

2014年5月成立陝西省大資料產業聯盟,以“西鹹新區大資料產業園”為載體吸引大資料企業入駐,同時結合高校科研資源提升大資料開發水平。但對於公共大資料的共享和利用,還沒有具體的部署。此外,自2013年開始,湖北、青海等多省份也開始佈局大資料規劃,其主要內容和關鍵目標各有側重。

大資料的關鍵技術

大資料關鍵技術涵蓋資料儲存、處理、應用等多方面的技術,根據大資料的處理過程,可將其分為大資料採集、大資料預處理、大資料儲存及管理、大資料處理、大資料分析及挖掘、大資料展示等。
1、大資料採集技術
大資料採集技術是指通過 RFID 資料、感測器資料、社交網路互動資料及移動網際網路資料等方式獲得各種型別的結構化、半結構化及非結構化的海量資料。
因為資料來源多種多樣,資料量大,產生速度快,所以大資料採集技術也面臨著許多技術挑戰,必須保證資料採集的可靠性和高效性,還要避免重複資料。
2、大資料預處理技術
大資料預處理技術主要是指完成對已接收資料的辨析、抽取、清洗、填補、平滑、合併、規格化及檢查一致性等操作。
因獲取的資料可能具有多種結構和型別,資料抽取的主要目的是將這些複雜的資料轉化為單一的或者便於處理的結構,以達到快速分析處理的目的。
3、大資料儲存及管理技術
大資料儲存及管理的主要目的是用儲存器把採集到的資料儲存起來,建立相應的資料庫,並進行管理和呼叫。
4、大資料處理
大資料的應用型別很多,主要的處理模式可以分為流處理模式和批處理模式兩種。批處理是先儲存後處理,而流處理則是直接處理。
在這裡插入圖片描述

擴充套件資料:
大資料無處不在,大資料應用於各個行業,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業都已經融入了大資料的印跡。
1、製造業,利用工業大資料提升製造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。
2、金融行業,大資料在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。
3、汽車行業,利用大資料和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。
4、網際網路行業,藉助於大資料技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。
5、電信行業,利用大資料技術實現客戶離網分析,及時掌握客戶離網傾向,出臺客戶挽留措施。

典型的大資料計算結構

大資料包括結構化、半結構化和非結構化資料,非結構化資料越來越成為資料的主要部分。

據IDC的調查報告顯示:企業中80%的資料都是非結構化資料,這些資料每年都按指數增長60%。

大資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲端計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,大資料會逐步為人類創造更多的價值。
在這裡插入圖片描述

其次,想要系統的認知大資料,必須要全面而細緻的分解它,著手從三個層面來展開:

第一層面是理論
理論是認知的必經途徑,也是被廣泛認同和傳播的基線。

在這裡從大資料的特徵定義理解行業對大資料的整體描繪和定性;

從對大資料價值的探討來深入解析大資料的珍貴所在;

洞悉大資料的發展趨勢;

從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。

第二層面是技術
技術是大資料價值體現的手段和前進的基石。

在這裡分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。

第三層面是實踐
實踐是大資料的最終價值體現。在這裡分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。
在這裡插入圖片描述

大資料經典應用案例:

洛杉磯警察局和加利福尼亞大學合作利用大資料預測犯罪的發生。
google流感趨勢(Google Flu Trends)利用搜尋關鍵詞預測禽流感的散佈。
統計學家內特.西爾弗(Nate Silver)利用大資料預測2012美國選舉結果。
麻省理工學院利用手機定位資料和交通資料建立城市規劃。
梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
醫療行業早就遇到了海量資料和非結構化資料的挑戰,而近年來很多國家都在積極推進醫療資訊化發展,這使得很多醫療機構有資金來做大資料分析。
現在的社會是一個高速發展的社會,科技發達,資訊流通,人們之間的交流越來越密切,生活也越來越方便,大資料就是這個高科技時代的產物。

相關文章