當今,大資料的到來,已經成為現實生活中無法逃避的挑戰。每當我們要做出決策的時候,大資料就無處不在。大資料術語廣泛地出現也使得人們漸漸明白了它的重要性。大資料漸漸向人們展現了它為學術、工業和政府帶來的巨大機遇。與此同時,大資料也向參與的各方提出了巨大的挑戰,首先是三個重要的技術問題:

一、如何利用資訊科技等手段處理非結構化和半結構化資料

大資料中,結構化資料只佔 15% 左右,其餘的 85% 都是非結構化的資料,它們大量存在於社交網路、網際網路和電子商務等領域。另一方面,也許有 90% 的資料來自開源資料,其餘的被儲存在資料庫中。大資料的不確定性表現在高維、多變和強隨機性等方面。股票交易資料流是不確定性大資料的一個典型例子。

大資料刺激了大量研究問題。非結構化和半結構化資料的個體表現、一般性特徵和基本原理尚不清晰,這些都需要通過包括數學、經濟學、社會學、電腦科學和管理科學在內的多學科交叉來研究和討論。給定一種半結構化或非結構化資料,比如影像,如何把它轉化成多維資料表、物件導向的資料模型或者直接基於影像的資料模型?值得注意的是,大資料每一種表示形式都僅呈現資料本身的側面表現,並非全貌。

如果把通過資料探勘提取“粗糙知識”的過程稱為“一次挖掘”過程,那麼將粗糙知識與被量化後主觀知識,包括具體的經驗、常識、本能、情境知識和使用者偏好,相結合而產生“智慧知識”過程就叫做“二次挖掘”。從“一次挖掘”到“二次挖掘”類似事物“量”到“質”的飛躍。

由於大資料所具有的半結構化和非結構化特點,基於大資料的資料探勘所產生的結構化的“粗糙知識”(潛在模式)也伴有一些新的特徵。這些結構化的粗糙知識可以被主觀知識加工處理並轉化,生成半結構化和非結構化的智慧知識。尋求“智慧知識”反映了大資料研究的核心價值。

二、如何探索大資料複雜性、不確定性特徵描述的刻畫方法及大資料的系統建模

這一問題的突破是實現大資料知識發現的前提和關鍵。從長遠角度來看,依照大資料的個體複雜性和隨機性所帶來的挑戰將促使大資料數學結構的形成,從而導致大資料統一理論的完備。從短期而言,學術界鼓勵發展一種一般性的結構化資料和半結構化、非結構化資料之間的轉化原則,以支援大資料的交叉工業應用。管理科學,尤其是基於最優化的理論將在發展大資料知識發現的一般性方法和規律性中發揮重要的作用。

大資料的複雜形式導致許多對“粗糙知識”的度量和評估相關的研究問題。已知的最優化、資料包絡分析、期望理論、管理科學中的效用理論可以被應用到研究如何將主觀知識融合到資料探勘產生的粗糙知識的“二次挖掘”過程中。這裡人機互動將起到至關重要的作用。

三、資料異構性與決策異構性的關係對大資料知識發現與管理決策的影響

由於大資料本身的複雜性,這一問題無疑是一個重要的科研課題,對傳統的資料探勘理論和技術提出了新的挑戰。在大資料環境下,管理決策面臨著兩個“異構性”問題:“資料異構性”和“決策異構性”。傳統的管理決定模式取決於對業務知識的學習和日益積累的實踐經驗,而管理決策又是以資料分析為基礎的。

大資料已經改變了傳統的管理決策結構的模式。研究大資料對管理決策結構的影響會成為一個公開的科研問題。除此之外,決策結構的變化要求人們去探討如何為支援更高層次的決策而去做“二次挖掘”。無論大資料帶來了哪種資料異構性,大資料中的“粗糙知識”仍可被看作“一次挖掘”的範疇。通過尋找“二次挖掘”產生的“智慧知識”來作為資料異構性和決策異構性之間的橋樑是十分必要的。探索大資料環境下決策結構是如何被改變的,相當於研究如何將決策者的主觀知識參與到決策的過程中。

大資料是一種具有隱藏法則的人造自然,尋找大資料的科學模式將帶來對研究大資料之美的一般性方法的探究,儘管這樣的探索十分困難,但是如果我們找到了將非結構化、半結構化資料轉化成結構化資料的方法,已知的資料探勘方法將成為大資料探勘的工具。

以上是我對大資料的三個重要技術問題進行研究的一些心得,也僅僅是一個研究大資料挑戰的起點。除此之外,還有一些資料科學的問題,包括在獲得資料和從資料中產生規則方面可能存在的公理體系,基於資料庫的知識發現規則與基於開放資料來源的知識發現規則以及大資料探勘的整體和(或)區域性解的存在性問題等等。在不久的將來,我相信這些問題都需要去仔細研究,以獲得突破性科研與應用成果。

 

via:36KR