自大資料進入了人們的視線之後,它便逐漸成為人們普遍關注的焦點。大資料講的是pb時代的科學,本質上大資料的挑戰是pb時代的對科學的挑戰,更是對包括資料探勘在內的認知科學的挑戰。那麼,大資料時代怎麼做資料探勘呢?

  在現今時代人們通常所說的大資料主要包括三個來源:第一是自然界大資料,也就是地球上的自然環境,很大很大。第二是生命大資料。第三也是最重要的,則是人們關心的社交大資料。這些資料普遍存在於人們的手機、電腦等裝置中。今天一個報告在3分鐘之內就可能被全世界的人們所知道。

  奧巴馬就職的社交場所,這麼多面孔,每一個面孔下都有一個故事,每一個人後面都有大資料的支撐。人臉是資料安全的很重要的識別器,怎麼把人臉識別清楚呢?人們想了很多辦法。現在北京市有80萬個攝像頭,我們每天都在攝像頭的監督下開車、購物。我們可以利用攝像頭做身份認證、年齡識別、情感計算、親緣發現、心理識別、地區識別、民族識別。這種流媒體主要的形態是非結構化的,特徵之間的關聯關係、裝置演算法的準確率等等,都嚴重地制約著大資料人臉挖掘的進度。如何能從這些海量資料中利用識別演算法提取出所需要的特徵屬性,並理清特徵之間的關係都是現在所面臨的問題。

  技術推動計算機發展

  1936年天才數學家圖靈提出圖靈模型,後來有計算機把圖靈模型轉化為物理計算機,這其中有三大塊:cpu、作業系統、記憶體和外存,還有輸入和輸出。在計算機發展的頭30年裡,我們投入最多的是cpu、作業系統、軟體、中介軟體以及應用軟體。當時人們側重於計算效能的提高,我們把這個時代叫做計算時代。

  計算對軟體付出了很大的努力,尤其是高效能運算機。我們認為計算在前20年中起到了主導作用,它的標誌速度就是摩爾速度。在這樣一個計算領先的時代當中,我們主要做的是結構化資料的挖掘。關聯式資料庫之父埃德加在1970年提出一個關係模型,以關係代數為核心運算,用二維表形式表示實體和實體間的聯絡。三四十年來,各行各業的資料庫和資料倉儲技術,以及從資料庫發現知識的資料探勘成為巨大的資訊產業。

  關係代數是關聯式資料庫的形式化理論和約束,先有頂層設計和資料結構,後填入清洗後的資料。資料圍繞結構轉,資料圍繞程式轉。使用者無需關心資料的獲取、儲存、分析以及提取過程。通過資料探勘,可以從資料庫中發現分類知識、關聯知識、時序知識、異常知識等等。

  隨著資料庫產業的膨大,人們對資料庫已經不太滿足了,於是把databases說成大資料,這便遇到了兩個不可迴避的挑戰,第一個挑戰是由於關係代數的形式化約束過於苛刻,無法表示現實資料;第二個挑戰是隨著資料量的增大,關係代數運算效能急劇下降。在這個時候,我們的儲存技術得到了迅猛發展,人類進入了搜尋時代。搜尋因為儲存便宜了,儲存的速度大概每9個月翻一番,所以儲存帶動了技術的腳步,這種搜尋時代經過了20多年的發展,帶領我們進入了一個半結構化資料探勘時代。這個時代的代表人物就是全球資訊網之父家蒂姆·伯納斯—李,他提出了超文字思想,開發了世界上第一個web伺服器,於是我們可以從一臺伺服器上檢索另一臺伺服器的內容,伺服器在軟體的支援下可釋出包括文字、表格、圖片、音視訊的碎片化超媒體資訊。

  因此,客戶端伺服器結構和雲端計算結構蓬勃產生,這時已經沒有了關於代數那樣嚴格的形式化約束,依靠的主要是規範、標準,所有媒體均以實體形式存在,甚至是軟體,實體通過超連結產生聯絡。

  形式化理論比關係代數寬鬆了許多,建立了靈活多樣的實體,這時候資料開始圍繞實體轉,實體圍繞連結轉。在雲端計算背景下,資料探勘也可以看作是雲端計算環境下的搜尋與個性化服務,不存在固定的查詢方式,也不會出現唯一、100%準確的查詢結果。

  網路化的大資料探勘

  隨著網際網路頻寬6個月翻一番的速度,人類進入了互動時代,互動帶動著計算和儲存的發展。

  移動網際網路時代的大資料探勘主要是網路化環境下的非結構化資料探勘,這些資料形態反映的是鮮活的、碎片化的、異構的、有情感的原生態資料。

  非結構化資料的特點是,它常常是低價值、強噪聲、異構、冗餘冰冷的資料,有很多資料放在儲存器裡就沒再用過。資料的形式化約束越來越寬鬆,越來越接近網際網路文化、視窗文化和社群文化。

  關注的物件也發生很大改變,挖掘關注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個重要思想就是由下而上勝過由上而下的頂層設計,強調挖掘資料的真實性、及時性,要發現關聯、發現異常、發現趨勢,總之要發現價值。

  當前,深度學習也是一種資料自適應簡約。如果我們在百度上用深度學習搜尋一個人臉象素搜尋,這麼多人臉誰是誰?資料量急劇增加,各種媒體形態可隨意碎片化,組織結構和挖掘程式要圍著資料轉,程式要碎片化,並可以隨時虛擬重組,挖掘常常是人機互動環境下不同社群的發現以及社群中形成的群體智慧,在非結構化資料探勘中,會自然進行資料清洗,自然形成半結構化資料和結構化資料,以提高資料使用效率。

  群體智慧是一個最近說得很多的詞,我們曾經在計算機上做一個圖靈測試,讓計算機區分哪些碼是人產生的,哪些是機器產生的,這是卡內基美隆大學提出來的,在網路購物、登入網站、申請網站時都會碰到適配碼被使用。在此要提到第三個代表人物——路易斯,他提出用這個適配碼應用方式。

  如果雲端計算支撐大資料探勘要發現價值,那麼我們認為雲端計算本來就是基於網際網路的大眾參與計算模式,其計算資源是動態的,可收縮的,被虛擬化的,而且以服務的方式提供。產生擺脫了傳統的配置帶來的系統升級,更加簡潔、靈活多樣、個性化,手機、遊戲機、數位相機、電視機差別細微,出現了更多icloud產品,介面人性化、個性化,都可成為大資料探勘的終端。

  挖掘員支撐各種各樣的大資料應用,如果我們有資料收集中心、儲存中心、計算中心、服務中心,一定要有資料探勘中心,這樣一來,就可以實現支撐大資料的及時應用和價值的及時發現。

  大資料標誌一個新時代的到來,這個時代的特徵不只是追求豐富的物質資源,也不只是無所不在的網際網路帶來方便的多樣化的資訊服務,同時還包含區別於物質的資料資源的價值挖掘和價值轉換,虛擬世界的資訊價值挖掘導致更加精確的控制物理世界的物質和能量,以及由大資料探勘帶來的精神和文化方面的嶄新現象。

來源:36大資料