大資料開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣。大資料正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,它催生出了雲端計算,雲安全等等,描繪出了一種全新的生態鏈。
1. 大資料,到底是什麼?
大資料,一場生活、工作與思維的大變革。那它到底是什麼呢?如何去分析大資料?
通俗的講:
- 收集足夠大的資料;
- 找出規律;
- 預測未來可能會發生的事 / 識別正在發生的事;
- 以上大部分工作都是通過計算機完成的,而不是人腦;
- 大資料的關注點是“規律是什麼,將會發生什麼”,而不是“為什麼會發生”。
以上呢,就大體上通俗得去說明了大資料的概念和分析過程。其實,大資料分析就是讓資料“發聲”。讓原本“沉默”的資料可以說出話:未來可能會發生什麼?
實際上,在大資料時代下,就是讓資料的處理變得更加簡單、更加快速,人們能夠在瞬間處理成千上萬的資料。同時,在這樣的環境下就催生出三個重要的轉變:
首先,要分析與某事物相關的所有資料,而不是依靠分析少量的資料樣本;
當資料處理技術已經發生了翻天覆地變化時,在大資料時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要全資料模式,也就是樣本=總體。
在這個轉變中,就體現出大資料的其一特點——資料體量(volumes)會是巨大的。
其次,要樂於接受資料的紛繁複雜,而不再追求精確性;
執迷於精確性是資訊缺乏時代和模擬時代的產物。只有5%的資料是結構化且適用於傳統資料庫的。如果不接受混亂,剩下95%的非結構化資料都無法被利用,只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶。總之,大資料的簡單演算法比小資料的複雜演算法更有效。
在這個轉變中,就自然而然出現大資料的又一特點——資料類別(variety)大,資料來自多種資料來源。
最後,我們的思想發生了轉變,不再探求難以捉摸的因果關係,轉而關注事物的相關關係。
知道“是什麼”就夠了,沒必要知道“為什麼”。在大資料時代,我們不必非得知道現象背後的原因,而是要讓資料自己“發聲”。
這就醞釀出大資料的真實性高(Veracity)和價值性優(value)的特點。
這三大轉變是相互聯絡和相互作用的。
2. 大資料,來自哪裡?
我們周圍有多少資料呢?
答案是300艾位元組。相當於一部XXX電影(1GB) × 10億部 × 1024 × 300
這些資料從哪來的?
-
機器產生的結構資料
eg: 收銀票據,固定的格式。 -
人類產生的非結構資料
eg: 社交平臺的評論資料、上傳的圖片、視訊等等。 -
機構產生的混合資料
eg: 一家超市,有所有的進銷存資料,客戶購物資料,還有官網對超市的評論等,有結構化的資料,也有非結構化的資料。
3. 大資料,就在我們身邊!
馬雲說:網際網路還沒搞清楚的時候,移動互聯就來了,移動互聯還沒搞清楚的時候,大資料就來了。 在資訊科技變革過程中,我們都把重點放在“T”(技術)上,而不是在“I”(資訊)上。 現在,我們是時候把聚光燈打向“I”,開始關注資訊本身了。慢慢從“IT”思想趨向於“DT”的技術驅動。
下面通過幾個案例,讓大家實打實觸控一把“大資料”。你會發現它其實就在我們身邊而且也會發現很有趣、很神奇。
3.1 啤酒與尿布
全球零售業巨頭沃爾瑪在對消費者購物行為分析時發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,於是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的資料分析成果早已成了大資料技術應用的經典案例,被人津津樂道。3.2 杭州治堵
利用大資料對紅綠燈時長進行智慧控制,用“杭州城市大腦”疏通道路。車輛通行速度最高提升了11%。同時,解決了城市交通、能源、供水等實時排程問題,讓城市更高效運轉。 杭州城市大腦正式上線AI視覺產品“天曜”,用機器代替交警巡邏。主要針對交通違章及事故的自動發現,從事件發生到報警不到20秒,準確率達95%以上。我們常說:世界上最遠的距離是監控攝像頭到紅綠燈的距離。它們都在一根杆子上,但是從來就沒有通過資料被連線過。而現在,在大資料的背景下,它們同在一根杆子上的兩個本獨立執行的個體,變得相互依存,相互影響,資料共享的局面。未來的物聯網革命(物與物互相連線的網際網路,產生海量資料並可以共享資料)又會帶來怎樣的改變呢?
3.3 詞雲圖
這張圖並不是美工畫出來,而是計算機。這張圖的詞語並不是隨機產生的,而是大資料的分析。它採用Python深入分析2006年至2017年之間共12臺《中央電視臺春節聯歡晚會》主持人主持詞文字。包括:分詞處理、自定義詞及使用者詞典、停用詞處理、詞性分佈、詞頻統計、關鍵詞分析最終產生了這張詞雲。從這張詞雲圖就可以看出這其間央視主持人說話的詞語頻率。3.4 使用者畫像
完美地抽象出一個使用者的資訊全貌,你的消費行為、社會屬性,生活習慣,即使用者標籤化(Tag)。從而為企業提供足夠的資訊基礎,幫助企業快速找到精準使用者群體。類似利用使用者畫像會催生出很多的資料應用,包括抖音的推薦視訊以及淘寶的推薦購物,你有時候會發現它推薦的真準確、真神奇、真恐怖,以至於現在慢慢的變成 “計算機”比你更瞭解你自己的局面。
3.5 殺熟不殺生
同條線路在不同裝置機上會出現不同的價格。“老使用者”是否等於 “優質韭菜”?3.6 Facebook & Uber
Facebook:8700萬使用者資訊洩露、幫助川普團隊在競選中精準投放廣告、干擾英國脫歐。Uber :2016年,兩名黑客盜取了 Uber 5000 萬乘客的姓名、電子郵件和電話號碼,以及約 60 萬名美國司機的姓名和駕照號碼。
如 Uber、Facebook 這樣「漠視」使用者隱私資料,也只是龐大網際網路在使用者隱私資料方面失控的冰山一角。這座冰山底下藏著的是無處不在的資料收集和使用。
3.7 聲波出賣你
觸控式螢幕,也能出賣你的手機密碼資料。手機的內建麥克風,搭配AI演算法,就能讓輸入的每一個字無處可逃。近期劍橋大學用AI演算法“監聽”手機打字,無論在嘈雜或安靜的環境下,都能很準確的竊聽你輸入的資訊。“聽到你的觸控”,這是論文的名字 (完整版:Hearing your touch: A new acoustic side channel on smartphones) 。在這裡,研究人員揭祕了“作案思路”,其實並不難理解。 即使是在觸控式螢幕上輕悄悄地操作,手指的每一次輕微的敲擊都會產生聲波。當戳擊螢幕不同位置時,聲波資訊也會有相應的變化,就會出現形狀不一的聲波圖,這些聲波恰巧可以被手機內建的麥克風捕捉到。
研究人員只需要開發了一個手機惡意應用程式,當這個程式被植入手機時,能夠調動內建麥克風,讓其祕密開始工作,記錄下觸控時的聲波資訊。你所有的輸入資料也就全部拿到了。
下圖就是觸控式螢幕上按下“f”鍵時的聲波震動形狀。
3.8 阿里帝國
從以上幾個案例我們可以看出,一切皆可“量化”!資料化的核心就是量化一切,當文字變成資料,當方位變成資料,當溝通變成資料,就只有你想不到的,沒有資訊做不到的事情了。
下面我再通過阿里巴巴商業帝國的模式去理解“資料化”這一概念。
在阿里帝國中,支付寶是一種支付方式,這很常見。甚至於它在和騰訊的微信支付打著沒有硝煙的戰爭。那為什麼阿里巴巴要這麼“拼命”開發支付寶呢,據銀聯資料,整個國內銀聯每年的利潤也就十幾個億,那為何要這麼“拼命玩”呢?很多人會說,這是個入口,的確是的,不過,我現在想去用另外的思維去看它,那就是為了資料!
為什麼要為了資料?因為他們要做更高維度的銀行。
其實,在2015年裡,馬雲就已經全新的定義了阿里這家公司,他說:我們集團本質上是一家擴大資料價值的公司。和未來潛力相比雲端計算和大資料還只是個嬰兒。對的,可以知道,阿里是一家資料公司,只有這樣理解了,才知道阿里在過去幾年間,在資本市場上的大手筆。
上圖呢,就是阿里間接參與或收購的一些專案。從這些可以看出,阿里健康就是為了獲得藥品實時資料,菜鳥網路就是為了獲得物流資料等等。要資料幹什麼?提供一個商業的基礎設施。這樣,我們是不是理解了馬雲所作的資本運作了,當然,也就不難理解“大資料”了。
當然,不僅僅是阿里,我們時刻都暴露在“第三隻眼”之下:亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,而微博似乎什麼都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關係網。
4. 大資料,你與雲端計算之間有啥關係?
雲端計算的關鍵詞在於“整合”,無論你是通過現在已經很成熟的傳統的虛擬機器切分型技術,還是通過Google後來所使用的海量節點聚合型技術,他都是通過將海量的伺服器資源和網路進行整合,排程分配給使用者,從而解決使用者因為儲存計算資源不足所帶來的問題。
大資料本身正是因為資料的爆發式增長帶來的一個新問題,如何儲存如今網際網路時代所產生的海量資料,如何有效的利用這些資料進行分析等等,這些問題都會在未來被解決。
雲端計算和大資料之間的關係就好比,雲端計算技術就是一個容器,大資料正是存放在這個容器中的水,大資料是要依靠雲端計算技術來進行儲存和計算的,雲端計算是要為大資料的分析提供服務的。
5. 大資料,與人工智慧在未來可歸結為同一件事情!
大資料(Big Data)和人工智慧(AI)這些名詞概念大家耳熟能詳,它們到底是什麼?有什麼區別與聯絡呢?
以上篇幅或多或少讓你感受過大資料,那麼在這就說說人工智慧這個東東。
5.1 人工智慧到底是什麼?
一句話來說,就是讓機器能像人一樣思考。這句話一點也不誇張,先記住,等會你就會明白。
真正的人工智慧是在人工神經網路技術的出現之後才得以蓬勃發展。
在人工神經網路技術出現之前,我們人類能清清楚楚地知道系統內部的分析過程,它們只是一個大型的複雜的程式而已;
而人工神經網路則不同,它的內部是一個黑盒子,就像我們人類的大腦一樣,我們不知道它內部的分析過程,我們不知道它是如何識別出人臉的,也不知道它是如何打敗圍棋世界冠軍的。我們只是為它構造了一個軀殼而已,就像人類一樣,我們只是生出了一個小孩而已,他腦子裡是如何想的我們並不知道!這就是人工智慧的可怕之處。讓機器能像人一樣思考。
人工智慧既然是受之於人工神經網路技術而發展的,那麼我們就來說說人工神經網路。
人工神經網路是受到人類大腦結構的啟發而創造出來的。大腦中有很多神經元細胞,這些神經元細胞通過複雜而有序的連線從而成為大腦神經網路。
下圖就是人工神經網路,它正是模仿了大腦的神經網路的結構。有輸入和輸出環節。
我們知道,大腦的結構越簡單,那麼智商就越低。單細胞生物是智商最低的了。人工神經網路也是一 樣的,神經網路的層數越多,它就越複雜,也說明越強大,因此我們需要深度神經網路。
那麼訓練深度的神經網路這個過程就叫做深度學習。網路構建好了後,我們只需要負責不停地將訓練資料輸入到神經網路中,它內部就會自己不停地發生變化不停地學習。打比方說我們想要訓練一個深度神經網路來識別貓。我們只需要不停地將貓的圖片(大資料)輸入到神經網路中去。訓練成功後,我們任意拿來一張新的圖片,它都能判斷出裡面是否有貓。但我們並不知道他的分析過程是怎樣的,它是如何判斷裡面是否有貓的。就像當我們教小孩子認識貓時,我們拿來一些白貓,告訴他這是貓,拿來一些黑貓,告訴他這也是貓,他腦子裡會自己不停地學習貓的特徵。最後我們拿來一些花貓,問他,他會告訴你這也是貓。但他是怎麼知道的?他腦子裡的分析過程是怎麼樣的?我們不得而知~
5.2 大資料與人工智慧的差異?
一個主要的區別是大資料是原始輸入,需要在資料變得有用之前做出資料結構化和整合;而人工智慧是輸出,是處理資料產生的智慧化的結果。這是兩者本質上的不同。
大資料是舊式計算。它不會對結果起作用,它只是尋找資料。它定義了非常大的資料集,並且是極其多樣化的資料。資料集可以存有結構化資料,例如關聯式資料庫中的事務資料,以及非結構化的資料,例如影象,電子郵件資料,感測器資料等。大資料為人工智慧提供整合好的資料。
人工智慧是一種全新的計算形式,允許機器執行認知功能,例如對輸入起作用或作出反應,類似於人類的行為。傳統的計算應用程式也會對資料做出反應,但反應和響應都必須手工編碼。正如我們上面所說人類明白應用程式內部執行的邏輯。
我們將多樣化的資料(x1,x2,x3)交給神經網路去不斷訓練他們的識別能力,進而有著比較精準的輸出。這時當丟擲任何型別的曲線球(是一種意外的輸入),應用程式無法做出反應。而人工智慧系統會不斷改變他們的行為,以適應調查結果的變化和修改他們的反應(即輸出)。
以上是本質上的不同:簡單來說,大資料專注於輸入,人工智慧專注於輸出。這種本質上的差異也造就了它們在應用上的差異化。
大資料主要是為了獲得洞察力。豆瓣如何根據你觀看的影片向你推薦可能喜好的影片?因為它著眼於使用者的習慣以及他們的喜好從而利用這些資料發掘出使用者對某件事物的偏好程度。
人工智慧(AI)是關於決策,並學習去做出更好的決策。無論是自我調整軟體、自動駕駛汽車還是檢查醫療樣本,AI都在做以前由人類完成的任務,但速度更快,錯誤更少。
5.3 大資料與人工智慧是同一件事情
將人工智慧與大資料進行對比是一個自然的錯誤,部分原因在於它們實際上是在一起。但它們是實現相同任務的不同工具。
因為人工智慧需要資料來建立智慧,特別是機器學習。例如,機器學習影象識別應用程式是檢視數億張飛機影象,以瞭解飛機的構成,以便將來識別它們。AI的機器學習是通過反覆試驗來學習,這需要大量的資料來教授AI。
大資料可以提供訓練AI的機器學習所需要的兩種資料。初始訓練的資料,它是一種啟動泵,並定期收集資料。一旦初始訓練完成,AI便可以茁壯成長,永不停止學習。這時大資料會源源不斷提供資料,此時的資料被稱為持續化資料,AI接收持續化的資料,並且不斷調整它們的行為已作出最佳的決策。AI應用程式擁有的資料越多,其結果就越準確。
5. 大資料,與你我有關麼?
當今,大家對「大資料」、「物聯網」、「人工智慧」、「機器學習」、「5G時代」等詞肯定不陌生,可能現在張口就來。甚至有人會覺得這些概念華而不實,很虛。當然這其中肯定有不少媒體或公司打著這些招牌去博眼球。但是,未來的趨勢肯定是這些。就像上一個網際網路風口一樣。
因此,很多人會覺得,上一個網際網路風口我沒有抓住,如今大資料、機器學習的風口我一定要抓住。就不斷湧入去學習大資料、機器學習、人工智慧。毋庸置疑,這是好事。但還是有很多人不會進入這個領域。但我想提供給大家一個思路,那就是從機器學習理論中找到學習的理論和方法。
下面這張圖的右邊部分是機器學習的理論:為何建模?如何建模?建模誤區?如何應用?
從這張圖我們可以知道,學習方法是可以從機器學習理論而來的,把名詞替換掉,其他都是一樣的。不同的是,一個教人如何學習?一個教機器如何學習?
人工智慧或大資料對教育的最大貢獻並非是什麼錦上添花的技術,而是可供我們日常學習參考的理論知識。
對於學習觀 可以在嗶哩嗶哩關注YJango 個人非常喜歡他的觀點 戳連結所以,這些「大資料」、「物聯網」、「人工智慧」、「機器學習」、「5G時代」我們每個人都可以去學習,並且可以學到東西,學習不同區塊的東西,從而用自己的知識體系挖掘出新知識的價值所在。不管是前端工程師亦或者是一位普通經商從業者。
更為重要的是,我們所有的人不僅僅可以去學,能學到東西。而且,我們每個人都參與其中。
大資料的定義是什麼?它是通過獲取、儲存、分析,從大容量資料中挖掘價值的一種全新的技術架構。
要做什麼?——獲取資料、儲存資料、分析資料
對誰做?——大容量資料
目的是什麼?——挖掘價值
它最終的目的是為了價值,商業價值、科研價值等等。就好比,上一個移動網際網路時代,它最終的發展是服務於人,我們能真正感受到,感知到,從而利用到各個商業服務。全民網購、餐廳線上點單、微信讓我們社交更方便,支付寶讓支付更簡單等等,這些我們都能真正感受到的,利用這些實實在在方便了我們的日常生活,也可以真正去利用這些為我們產生價值。
當一個新興事物在不斷壯大和成熟之後,所有的人都能參與融入進來,所有的領域都會發展和改進。就好比全面屏和摺疊屏的出現,前端是不是又要考慮這兩個大臉屏的相容性問題,就會不斷出現新的解決方案。現在你可能並不知道5G、人工智慧到底是什麼?但是當它們成熟的時候,它就會滲入到日常生活,我們都能感知並從中獲得價值。
當世界開始邁向大資料時代時,社會也將經歷類似的地殼運動。在改變人類基本的生活與思考方式的同時,大資料早已在推動人類資訊管理準則的重新定位。然而,不同於印刷革命,我們沒有幾個世紀的時間去適應,我們也許只有幾年時間。
在這幾年時間裡,我們要去明白一個道理:“取之不盡,用之不竭”的資料創新。資料就像一個神奇的鑽石礦,當它的首要價值被髮掘後仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分都隱藏在表面之下。
大資料並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大資料為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。
最後,我以一個小小的問題作為文章的結尾:在不久的未來上,你認為Do the right thing
(做正確的事) 和 Do the thing right
(把事情做好) 哪個更為重要呢?
文/呂涯
若有錯誤,及時提出,一起學習,共同進步。謝謝。 ???
覺得還不錯,騙你個贊,可否?