大資料擁抱雲端計算

在PaaS層中一個複雜的通用應用就是大資料平臺。大資料是如何一步一步融入雲端計算的呢？

1 資料不大也包含智慧

一開始這個大資料並不大。原來才有多少資料？現在大家都去看電子書，上網看新聞了，在我們80後小時候，資訊量沒有那麼大，也就看看書、看看報，一個星期的報紙加起來才有多少字？如果你不在一個大城市，一個普通的學校的圖書館加起來也沒幾個書架，是後來隨著資訊化的到來，資訊才會越來越多。

首先我們來看一下大資料裡面的資料，就分三種型別，一種叫結構化的資料，一種叫非結構化的資料，還有一種叫半結構化的資料。

結構化的資料：即有固定格式和有限長度的資料。例如填的表格就是結構化的資料，國籍：中華人民共和國，民族：漢，性別：男，這都叫結構化資料。

非結構化的資料：現在非結構化的資料越來越多，就是不定長、無固定格式的資料，例如網頁，有時候非常長，有時候幾句話就沒了；例如語音，影片都是非結構化的資料。

半結構化資料：是一些XML或者HTML的格式的，不從事技術的可能不瞭解，但也沒有關係。

其實資料本身不是有用的，必須要經過一定的處理。例如你每天跑步帶個手環收集的也是資料，網上這麼多網頁也是資料，我們稱為Data。資料本身沒有什麼用處，但資料裡面包含一個很重要的東西，叫做資訊（Information）。

資料十分雜亂，經過梳理和清洗，才能夠稱為資訊。資訊會包含很多規律，我們需要從資訊中將規律總結出來，稱為知識（Knowledge），而知識改變命運。資訊是很多的，但有人看到了資訊相當於白看，但有人就從資訊中看到了電商的未來，有人看到了直播的未來，所以人家就牛了。如果你沒有從資訊中提取出知識，天天看朋友圈也只能在網際網路滾滾大潮中做個看客。

所以資料的應用分這四個步驟：資料、資訊、知識、智慧。

最終的階段是很多商家都想要的。你看我收集了這麼多的資料，能不能基於這些資料來幫我做下一步的決策，改善我的產品。例如讓使用者看影片的時候旁邊彈出廣告，正好是他想買的東西；再如讓使用者聽音樂時，另外推薦一些他非常想聽的其他音樂。

使用者在我的應用或者網站上隨便點點滑鼠，輸入文字對我來說都是資料，我就是要將其中某些東西提取出來、指導實踐、形成智慧，讓使用者陷入到我的應用裡面不可自拔，上了我的網就不想離開，手不停地點、不停地買。在這裡我還是要推薦下我自己建的大資料學習交流kou裙：數字522+數字189+數字307 ，裙裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有大資料開發相關的），包括我自己整理的一份最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴。

很多人說雙十一我都想斷網了，我老婆在上面不斷地買買買，買了A又推薦B，老婆大人說，“哎呀，B也是我喜歡的啊，老公我要買”。你說這個程式怎麼這麼牛，這麼有智慧，比我還了解我老婆，這件事情是怎麼做到的呢？

2 資料如何昇華為智慧

資料的處理分幾個步驟，完成了才最後會有智慧。

第一個步驟叫資料的收集。首先得有資料，資料的收集有兩個方式：

第一個方式是拿，專業點的說法叫抓取或者爬取。例如搜尋引擎就是這麼做的：它把網上的所有的資訊都下載到它的資料中心，然後你一搜才能搜出來。比如你去搜尋的時候，結果會是一個列表，這個列表為什麼會在搜尋引擎的公司裡面？就是因為他把資料都拿下來了，但是你一點連結，點出來這個網站就不在搜尋引擎它們公司了。比如說新浪有個新聞，你拿百度搜出來，你不點的時候，那一頁在百度資料中心，一點出來的網頁就是在新浪的資料中心了。

第二個方式是推送，有很多終端可以幫我收集資料。比如說小米手環，可以將你每天跑步的資料，心跳的資料，睡眠的資料都上傳到資料中心裡面。

第二個步驟是資料的傳輸。一般會透過佇列方式進行，因為資料量實在是太大了，資料必須經過處理才會有用。可系統處理不過來，只好排好隊，慢慢處理。

第三個步驟是資料的儲存。現在資料就是金錢，掌握了資料就相當於掌握了錢。要不然網站怎麼知道你想買什麼？就是因為它有你歷史的交易的資料，這個資訊可不能給別人，十分寶貴，所以需要儲存下來。

第四個步驟是資料的處理和分析。上面儲存的資料是原始資料，原始資料多是雜亂無章的，有很多垃圾資料在裡面，因而需要清洗和過濾，得到一些高質量的資料。對於高質量的資料，就可以進行分析，從而對資料進行分類，或者發現資料之間的相互關係，得到知識。

比如盛傳的沃爾瑪超市的啤酒和尿布的故事，就是透過對人們的購買資料進行分析，發現了男人一般買尿布的時候，會同時購買啤酒，這樣就發現了啤酒和尿布之間的相互關係，獲得知識，然後應用到實踐中，將啤酒和尿布的櫃檯弄的很近，就獲得了智慧。

第五個步驟是對於資料的檢索和挖掘。檢索就是搜尋，所謂外事不決問Google，內事不決問百度。內外兩大搜尋引擎都是將分析後的資料放入搜尋引擎，因此人們想尋找資訊的時候，一搜就有了。

另外就是挖掘，僅僅搜尋出來已經不能滿足人們的要求了，還需要從資訊中挖掘出相互的關係。比如財經搜尋，當搜尋某個公司股票的時候，該公司的高管是不是也應該被挖掘出來呢？如果僅僅搜尋出這個公司的股票發現漲的特別好，於是你就去買了，其實其高管發了一個宣告，對股票十分不利，第二天就跌了，這不坑害廣大股民麼？所以透過各種演算法挖掘資料中的關係，形成知識庫，十分重要。

3 大資料時代，眾人拾柴火焰高

當資料量很小時，很少的幾臺機器就能解決。慢慢的，當資料量越來越大，最牛的伺服器都解決不了問題時，怎麼辦呢？這時就要聚合多臺機器的力量，大家齊心協力一起把這個事搞定，眾人拾柴火焰高。

對於資料的收集：就IoT來講，外面部署這成千上萬的檢測裝置，將大量的溫度、溼度、監控、電力等資料統統收集上來；就網際網路網頁的搜尋引擎來講，需要將整個網際網路所有的網頁都下載下來。這顯然一臺機器做不到，需要多臺機器組成網路爬蟲系統，每臺機器下載一部分，同時工作，才能在有限的時間內，將海量的網頁下載完畢。

對於資料的傳輸：一個記憶體裡面的佇列肯定會被大量的資料擠爆掉，於是就產生了基於硬碟的分散式佇列，這樣佇列可以多臺機器同時傳輸，隨你資料量多大，只要我的佇列足夠多，管道足夠粗，就能夠撐得住。

對於資料的儲存：一臺機器的檔案系統肯定是放不下的，所以需要一個很大的分散式檔案系統來做這件事情，把多臺機器的硬碟打成一塊大的檔案系統。

對於資料的分析：可能需要對大量的資料做分解、統計、彙總，一臺機器肯定搞不定，處理到猴年馬月也分析不完。於是就有分散式計算的方法，將大量的資料分成小份，每臺機器處理一小份，多臺機器並行處理，很快就能算完。例如著名的Terasort對1個TB的資料排序，相當於1000G，如果單機處理，怎麼也要幾個小時，但並行處理209秒就完成了。

所以說什麼叫做大資料？說白了就是一臺機器幹不完，大家一起幹。可是隨著資料量越來越大，很多不大的公司都需要處理相當多的資料，這些小公司沒有這麼多機器可怎麼辦呢？

4 大資料需要雲端計算，雲端計算需要大資料

說到這裡，大家想起雲端計算了吧。當想要幹這些活時，需要很多的機器一塊做，真的是想什麼時候要就什麼時候要，想要多少就要多少。

例如大資料分析公司的財務情況，可能一週分析一次，如果要把這一百臺機器或者一千臺機器都在那放著，一週用一次非常浪費。那能不能需要計算的時候，把這一千臺機器拿出來；不算的時候，讓這一千臺機器去幹別的事情？

誰能做這個事兒呢？只有雲端計算，可以為大資料的運算提供資源層的靈活性。而云計算也會部署大資料放到它的PaaS平臺上，作為一個非常非常重要的通用應用。因為大資料平臺能夠使得多臺機器一起幹一個事兒，這個東西不是一般人能開發出來的，也不是一般人玩得轉的，怎麼也得僱個幾十上百號人才能把這個玩起來。

所以說就像資料庫一樣，其實還是需要有一幫專業的人來玩這個東西。現在公有云上基本上都會有大資料的解決方案了，一個小公司需要大資料平臺的時候，不需要採購一千臺機器，只要到公有云上一點，這一千臺機器都出來了，並且上面已經部署好了的大資料平臺，只要把資料放進去算就可以了。

雲端計算需要大資料，大資料需要雲端計算，二者就這樣結合了。

人工智慧擁抱大資料

1 機器什麼時候才能懂人心

雖說有了大資料，人的慾望卻不能夠滿足。雖說在大資料平臺裡面有搜尋引擎這個東西，想要什麼東西一搜就出來了。但也存在這樣的情況：我想要的東西不會搜，表達不出來，搜尋出來的又不是我想要的。

例如音樂軟體推薦了一首歌，這首歌我沒聽過，當然不知道名字，也沒法搜。但是軟體推薦給我，我的確喜歡，這就是搜尋做不到的事情。當人們使用這種應用時，會發現機器知道我想要什麼，而不是說當我想要時，去機器裡面搜尋。這個機器真像我的朋友一樣懂我，這就有點人工智慧的意思了。

人們很早就在想這個事情了。最早的時候，人們想象，要是有一堵牆，牆後面是個機器，我給它說話，它就給我回應。如果我感覺不出它那邊是人還是機器，那它就真的是一個人工智慧的東西了。

2 讓機器學會推理

怎麼才能做到這一點呢？人們就想：我首先要告訴計算機人類的推理的能力。你看人重要的是什麼？人和動物的區別在什麼？就是能推理。要是把我這個推理的能力告訴機器，讓機器根據你的提問，推理出相應的回答，這樣多好？

其實目前人們慢慢地讓機器能夠做到一些推理了，例如證明數學公式。這是一個非常讓人驚喜的一個過程，機器竟然能夠證明數學公式。但慢慢又發現其實這個結果也沒有那麼令人驚喜。因為大家發現了一個問題：數學公式非常嚴謹，推理過程也非常嚴謹，而且數學公式很容易拿機器來進行表達，程式也相對容易表達。

3 教給機器知識

因此，僅僅告訴機器嚴格的推理是不夠的，還要告訴機器一些知識。但告訴機器知識這個事情，一般人可能就做不來了。可能專家可以，比如語言領域的專家或者財經領域的專家。

語言領域和財經領域知識能不能表示成像數學公式一樣稍微嚴格點呢？例如語言專家可能會總結出主謂賓定狀補這些語法規則，主語後面一定是謂語，謂語後面一定是賓語，將這些總結出來，並嚴格表達出來不就行了嗎？後來發現這個不行，太難總結了，語言表達千變萬化。在這裡我還是要推薦下我自己建的大資料學習交流kou裙：數字522+數字189+數字307 ，裙裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有大資料開發相關的），包括我自己整理的一份最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴。

人工智慧這個階段叫做專家系統。專家系統不易成功，一方面是知識比較難總結，另一方面總結出來的知識難以交給計算機。因為你自己還迷迷糊糊，覺得似乎有規律，就是說不出來，又怎麼能夠透過程式設計教給計算機呢？

4 算了，教不會你自己學吧

於是人們想到：機器是和人完全不一樣的物種，乾脆讓機器自己學習好了。

大資料和人工智慧的關係

相關文章