摘要:大資料儲存和分析的能力是未來創新型國家的核心戰略能力。當前關於大資料的理論研究在共性問題提煉、方法論框架和實時資料演算法理論上仍存在一些不足,從大資料“海量、實時、多樣”三大特徵出發,聚焦網路大資料這一物件,以資料複雜性的度量和約簡作為主線,具體從網路鏈路預測及推薦、動態演化網路上的演算法研究、網路小世界模型與資訊傳播3個問題出發,研究大資料在時間、空間和關聯關係上的簡約計算。
關鍵詞:時間複雜性;空間複雜性;關係複雜性;資料複雜性
隨著網路、通訊、感知等技術的迅猛發展,人類正進入大資料時代:根據國外相關機構預測,全世界資料總量以每兩年翻一番的速度增長。近年來大資料的飆升主要來源於網際網路服務,並且對大到國計民生小到衣食住行都產生了革命性的影響。因此在網際網路上可訪問到的人、機、物三元世界產生的網路大資料是大家關注的焦點。
網路大資料具有如下3個特點。
● 海量:網路空間中資料的體量不斷擴大,I D C(International Data Corporation,國際資料公司)的研究報告稱,2012年網路大資料總量為2.7 ZB,預計到2020年,總量將達到40 ZB。
● 實時:網路大資料通常以流的形式動態、快速地產生,具有很強的時效性,甚至呈現脈衝式的突發湧現,並且這些資料需要快速處理,實時響應。
● 多樣:描述同一主題的資料往往來源多樣,關聯關係複雜,而且包含結構化、半結構化和非結構化等多種資料型別。
網路大資料在經濟、社會、政治、科學等多方面都有不可估量的價值。美國政府認為大資料是“未來的新石油”,並把大資料研究上升為國家意志,這必然會在各個領域產生深遠的影響。
(1)網路大資料的研究對捍衛國家網路空間的數字主權、維護國家安全和社會穩定有重要作用
資訊化時代,國家層面的競爭力將部分體現為一國擁有網路大資料的規模、活性以及對資料的解釋與運用的能力。國家在網路空間的數字主權也將是繼海、陸、空、天四大空間之後的另一個大國博弈的空間。備受矚目的“稜鏡門”,深刻暴露出一些大國在有計劃、有步驟地採集各國的數字“DNA”。2012年3月,美國國家科學基金會提出要“形成一個包括數學、統計基礎和計算機演算法的獨特學科”——大資料科學。該計劃還強調,大資料技術事關美國的國家安全,影響科學研究的步伐,還將引發教育和學習的變革。這意味著網路大資料的主權已上升為國家意志,直接影響國家和社會的穩定,事關國家的戰略安全。
(2)網路大資料是國民經濟核心產業資訊化升級的重要推動力量
“人、機、物”三元世界的融合產生了大規模的資料,如何感知、測量、利用這些網路大資料成為國民經濟中許多行業面臨的共同難題。通過對網路大資料共性問題的分析和研究,使企業能夠掌握網路大資料的處理技術或者能夠承受網路大資料處理的成本與代價,進而使整個行業邁入數字化與資訊化的新階段。從這個意義上來看,對網路大資料基礎共性問題的解決將是新一代資訊科技融合應用的新焦點,是資訊產業持續高速增長的新引擎,也是行業使用者提升競爭力的新動力。
(3)網路大資料技術上的突破將催生出戰略性新興產業
網路大資料技術的突破意味著人們能夠理清資料互動連線產生的複雜性,掌握資料冗餘與缺失雙重特徵引起的不確定性,駕馭資料的高速增長與交叉互連引起的湧現性,進而能夠根據實際需求從網路資料中挖掘出其蘊含的資訊、知識甚至是智慧,最終達到充分利用網路資料價值的目的。網路資料已成為聯絡各個環節的關鍵紐帶,通過對網路資料紐帶的分析與掌握,可以降低行業成本、促進行業效率、提升行業生產力。在網路大資料技術的驅動下,行業模式的革新將可能催生出資料材料、資料製造、資料能源、資料製藥、資料金融等一系列戰略性的新興產業。
(4)大資料正在引起學術界對科學研究思維與方法的一場革命
傳統科學研究的正規化是從現象中分析提煉理論假設,再利用實驗驗證相應的理論。大資料的出現催生了一種新的科研模式,即面對大資料,科研人員只需從資料中直接查詢、分析或挖掘所需的資訊和知識,這些知識表現為概率形態的關聯或因果關係,這種關係可能複雜到無法為人類直觀掌握,但是可以很好地解釋現實、預測未來。圖靈獎得主Gray J在他的最後一次演講中描繪了資料密集型科學研究的“第四正規化”,把資料密集型科學從計算科學中單獨區分開來。Gray認為,要解決面臨的某些最棘手的全球性挑戰,“第四正規化”可能是唯一系統性的方法。
大資料研究方興未艾,成果累累,每年僅在《Nature》及其子刊、《Science》和《PNAS》上發表的大資料分析相關論文就有近百篇。其中,網路大資料又扮演中心的角色。從電腦科學的角度看,目前的研究主要有3方面有待進一步加強。首先,目前還缺乏專門針對海量實時流式資料的演算法理論、演算法設計與評估框架。其次,對於特定資料物件的研究較多,對於共性問題的提煉和分析較少,還缺乏可察覺的方法論的主線。最後,在靜態資料或離線資料上的演算法測試類研究較多,在真實系統中的大規模實驗較少,還缺乏可信賴的效果評估。因此,資料科學,甚至說“第四正規化”,都還只是一個模糊的雛形。
本文嘗試從資料複雜度的角度進行突破,針對網路大資料所具備的“海量、實時、多樣”三大特徵,依託國家自然科學基金重點專案“大資料結構與關係的度量與簡約計算”,圍繞大資料時間、空間、關聯複雜性的度量和約簡展開,希望探索出符合當前實時海量流式資料處理的,新的演算法複雜性理論基本思想和演算法設計的基本框架,尋找從時間、空間和特徵關聯3方面約簡資料和處理資料的演算法,從而對資料科學基礎理論和基本方法論的形成產生貢獻。
具體來說,本文將集中關注與網路大資料有關的演算法理論和應用問題,圍繞重點專案“大資料結構與關係的度量與簡約計算”實施一年多來在網路鏈路預測與推薦、網路小世界模型及資訊傳播、動態演化網路的相關演算法3方面取得的一些進展進行彙報,展示對資料複雜度的認識和理解。
2 相關工作
2.1 網路大資料計算
傳統的CPU密集型的計算,資料量不大,演算法複雜度往往只要求是多項式級即可,理論研究的焦點也在於區分多項式級和非多項式級的演算法。而網路大資料計算動輒面臨TB乃至PB級的資料規模,計算從CPU密集型轉化為資料密集型。演算法設計的關鍵是保證時間為線性甚至亞線性。另一方面,資料傳輸(無論從外存讀取還是網路上傳輸)的時間開銷遠大於CPU處理時間,這使得CPU不再成為計算的瓶頸。因此,計算方法的重點變成了努力降低演算法涉及的資料的移動開銷。主要思路有3類:分散化、區域性化和增量化。
(1)分散化
大機群分散式計算是高效大資料處理的首選,因為單個計算節點的工作負載可以大幅度降低,特別是當資料分散儲存的時候,通過分散式計算可以減少資料的跨節點流動,降低資料移動開銷。Google(谷歌)公佈的MapReduce程式設計模型在工業界乃至學術界產生了極大的影響,以至於“談大資料必談MapReduce” [1]。
(2)區域性化
網路區域性性演算法最早指的是在網路分散式計算中,每個計算節點的輸出僅僅與常數跳範圍內的鄰居節點有關,與整個網路的規模無關[2]。在網路大資料背景下,網路規模巨大且動態演化,對整個網路結構的儲存、快照、訪問都需要耗費高昂的成本,此時區域性性演算法不再強調分散式,而是關注網路以資料流的形式輸入,如何實時處理以及如何只訪問網路區域性的資料就能夠獲得計算結果。區域性演算法在時間複雜度上具有明顯的優勢(亞線性甚至常數時間),在複雜網路的計算中越來越受到關注。
(3)增量化
在動態網路中,每個時刻的網路資料都可以看作在前一時刻資料基礎上作了一定的偏移(稱為增量)。如果觀察間隔較短,那麼相對於整個網路規模,增量一般不大。如果基於增量更新網路的特定性質,在理想情況下,更新演算法的時間複雜度不依賴於整個網路的規模,僅僅與增量有關,這類演算法稱為增量式演算法。Desikan P等人[3]針對動態網路的Pagerank更新,把網路中的點分類,使得需要重新計算的點數很少,該方法後來被Bahmani B等人[4]推廣到Monte Carlo的Pagerank演算法。
2.2 網路大資料特徵刻畫和結構挖掘
複雜網路的特性主要由一些統計值來刻畫,如度分佈、最短路徑長度等,這些巨集觀特徵是由各個節點的動力學行為及其節點之間相互作用產生的集中表現。1998年,Watts D J等人[5]分析了網路中的高聚集性和短特徵路徑長度等特性,研究了網路“小世界”特性產生的機制。對於靜態網路,通常採用拓撲距離刻畫網路的最短路徑長度,而對於動態變化的時序網路,一般採用時序路徑長度進行刻畫[6]。Pan RK 等人[7]提出對時序網路中的時序路徑進行確切的定義並給出了相應的計算演算法。
NewmanM E J[8]的研究成果,使得複雜網路中的社群發現成為近幾年複雜網路領域的一個研究熱點,並形成了複雜網路中一個重要的研究方向。Fortunato S[9]在Physics Reports上給出了社群發現的綜述。2004年,Newman M E J[10]提出了基於模組度優化的快速演算法。隨後,研究者在Newman M E J等人的工作基礎上,提出了多種型別的基於模組度優化的演算法。
2.3 基於網路的缺失預測和趨勢預測
網路中的鏈路預測是指如何通過已知的網路結構資訊來預測網路中尚未產生連邊的兩個節點之間產生連線的可能性。由於實際應用中通常存在嚴重的資料缺失問題,鏈路預測可以通過推斷補齊這些缺失連邊,從而更加準確地對網路進行分析,鏈路預測已成為準確分析社會網路和生物網路的有力輔助工具[11]。另外,社會媒體中的推薦問題,譬如Facebook上的朋友推薦和新浪微博中的關注物件推薦,本質上也是鏈路預測問題[12]。
推薦系統通常包括3個組成要素:使用者、物件和推薦方法,其中推薦方法是整個推薦系統的核心。筆者主要考慮基於網路的推薦系統。在簡化的情況下,推薦系統可視為二部分圖上的鏈路預測問題。在大資料環境下,推薦系統規模很大,使用者和商品數目動輒百千萬計,兩個使用者之間選擇的重疊非常少,使得絕大部分基於關聯分析的演算法(譬如協同過濾)的計算效果都不好。事實上,網路方法很早就應用於推薦系統。例如,Aggarwal C C等人[13]研究了基於圖(網路結構)的協同推薦演算法,結果表明基於圖的協同過濾方法在計算速度、推薦精度、可擴充套件性、學習時間等方面均優於傳統的協同推薦演算法。Huang Z等人[14]用二層圖模型刻畫客戶—產品推薦系統,討論了二部分圖的小世界效應和集聚性質對不同推薦演算法的影響。
3 網路鏈路預測及推薦
3.1 “結構微擾法”鏈路預測方法
鏈路預測是網路科學中一個重要的基礎問題[15]。精準的預測結果既可以指導生物學的實驗,還可以進行社交網路的好友預測。好的預測演算法本身還給出了很多網路演化可能機制的暗示。遺憾的是,人們並不知道一個演算法是否“足夠精確”。針對一個完全隨機的網路,“什麼都預測不到”可能已經是最好的結果了,但針對一個非常規則的網路,精心設計的方法可能能夠100%進行預測。知道了一個網路的鏈路在多大程度上“能夠被預測出來”,能夠使得人們去判斷演算法是否已經接近甚至達到預測的上界,是否還有提升的空間。
事實上,“可被預測的程度”本身也可以看作網路的一種重要性質。為了衡量網路可被預測的難易程度,Lü L等人[15]提出瞭如下假設:網路越具有某些規律性,越容易被預測。進一步地,如果隨機從網路中抽取出一小部分鏈路,網路的特徵向量空間受到的影響很小,就說明網路是具有規律性的。Lü L等人使用類似於量子力學中對哈密頓量做一階微擾的方法,假定減少或增加少量連結所產生的微擾,只對特徵值有影響,而對特徵向量沒有影響,這樣可以觀察微擾後通過這種辦法重構的鄰接矩陣和真實鄰接矩陣的差異。Lü L等人提出了一種度量這個差異的引數—結構一致性(structural consistence),被認為可以直接用來刻畫網路的“可被預測的程度” [16]。
大量的模擬網路和真實網路實驗都支援了上述結論:結構一致性越強的網路越容易被準確預測丟失的鏈路。Lü L等人利用結構一致性,提出了一種新的名為“結構微擾法”(structuralperturbation method)的鏈路預測方法。這個方法在預測丟失的鏈路以及甄別網路中新增的噪音邊兩方面都明顯超過了當前主流的方法,包括知名的層次結構法和隨機分塊法。
3.2 場景自適應的跨領域推薦
資料稀疏是推薦系統面臨的一大挑戰。跨領域推薦通過融合多個領域的資料來克服資料稀疏問題。現有的跨領域推薦方法主要有兩類:第一類基於同質性假設,即假設同一個物件在不同的領域共享同一個表達,這類方法適用於在每個領域都稀疏的物件,但不能刻畫領域對物件的影響;第二類基於異質性假設,即假設每個領域有一個領域獨有的變換矩陣,每個物件在不同場景中的表達由該物件的全域性表達和領域變換矩陣相作用得到,這類模型適用於在部分領域稀疏而在其他領域不稀疏的物件,但對於在每個領域都稀疏的物件效果很差。針對上述問題,Shen H W等人[17]提出了一種場景自適應的跨領域推薦方法(context-adaptive matrixfactorization,AdaMF),物件的表達建模為其全域性表達和場景相關表達的一個混合分佈,採用混合係數來自適應地調節全域性表達和場景相關表達的作用。在MovieLens-Netflix資料集上的實驗表明,AdaMF在稀疏—稀疏、稀疏—稠密、稠密—稠密等各個場景下都一致性地優於現有的兩類代表性方法。
3.3 基於使用者行為的購物推薦
如何對使用者下一次的購物資料進行預測是市場分析裡的重要問題。傳統的方法有兩種:一種是基於商品順序的推薦,這種方式捕獲了使用者購物的順序行為,但是忽略了購物推薦的個性化因素,並且缺乏使用者對商品整體興趣的描述;另一種是協同過濾,這種方式忽略了使用者交易的特徵,將使用者所有購買的商品混在一起建模。為了解決以上問題,Lan Y Y等人[18]提出了層次化表達模型(hierarchical representation model)來完成使用者的購物推薦。參考文獻[18]中假設使用者的表達和商品的表達均在同一個連續的空間中,商品的表達可以通過操作符合成交易的表達,用來代表使用者購物的順序行為,使用者的表達代表使用者的整體興趣。在模型的第二層使用操作符將兩個表達合併在一起作為使用者當前的興趣表達來預測使用者下一步購買的商品。在和多個baseline進行比較的實驗中,Lan YY等人的模型在f-measure、hit-ratio以及NDCG指標上均取得了較好的效能。
4 動態演化網路演算法研究
4.1 動態演化網路排序演算法
排序作為最基本而經典的演算法問題,在大資料時代依然是眾多關鍵應用的基石,如搜尋、推薦系統等。筆者研究了訪問受限的動態資料模型下的排序和查詢問題[19]。借鑑Anagnostopoulos等人提出的動態資料的模型,採用Kendall tau 距離作為衡量演算法效能的指標。筆者研究了Topk selection問題:在每個時刻t,找出Topk的元素並將其排序。之前Anagnostopoulos等人的工作只研究了兩個極端情況k=1和k= n。筆者的主要貢獻是確定了該問題的“相變點”——k*,即當k=o(k*)時,該問題可以以1-o(1)的概率無差錯地解決。同時筆者證明了當k超過k*時,對於任何演算法,所求得的順序與真實順序的Kendall tau距離都至少是k2/n,而且筆者的演算法表明這個界是緊的。筆者還研究了比Topk selection弱的一個問題:Topk set問題。在這一問題中筆者只需要確認Topk的元素,而不需要確定它們的順序,證明了對任意的k,Topk set問題都可以以1-o(1)的概率無差錯地求解。
4.2 基於動態距離的網路社群發現演算法
社群挖掘是大規模網路分析和挖掘的基礎,它在社交網路、生物網路、腦網路等諸多方面都有重要的應用。但如何有效地挖掘大規模網路中存在的社群結構仍然面臨著巨大的挑戰。針對這個基礎理論研究問題,Shao J等人[20]提出了一個新的社團挖掘演算法:Attractor演算法。該演算法的基本思想是將網路看作一個動力學系統,每個節點與周圍節點進行互動,提出3種直觀的互動模式,通過模擬網路中節點間的距離變化動態地發現社群結構。由於社群檢測是基於網路內在的連線模式,因此該演算法能找出網路中不同大小的固有社團。同時由於演算法的時間複雜度低,因此可以處理大規模網路。大量人工資料集和真實資料集實驗都表明Attractor演算法相比傳統演算法更有優勢。這一工作為大規模網路中的社群挖掘問題提供了新的思路和方法。
4.3 並行祕書問題線上演算法
祕書問題是2 0世紀6 0年代提出的經典線上問題,筆者研究了這個問題的一個一般化變種,並在並行模式下考慮了這個經典的線上優化問題[21]。假設僱主計劃從n個完全隨機到來的候選人中選擇J個人。僱主對於不同的候選人有著不同的評價,想要錄取的這些人儘可能是前k好的。這裡資料是以流式的方式到來的,每面試完一個候選人,面試官才知道當前候選人的價值,並且要立即決定是否錄取這個人,不可反悔。筆者在研究中提出了一個基於觀察—選擇的確定性演算法。這個演算法具有高效、易實現的特點,並且從線性規劃出發,利用互補鬆弛定理,可以證明該演算法的最優性。筆者的演算法同樣可以用於解決當各佇列的名額是預先指定的情況,從而解決了EC2012上Feldman等人的文章中的一個未解問題。針對兩個典型的例子,給出了演算法的近似比。
5 網路小世界模型與資訊傳播
5.1 基於博弈論的小世界模型
小世界模型是複雜網路模型中的一個重要模型。它刻畫了各種複雜網路中經常出現的平均距離很短而聚合度較高的現象。2002年Kleinberg J提出了適於通行的小世界網路的概率模型,指出當模型中的隨機長邊冪率分佈係數r等於基準格子網路的維度時,小世界網路才是可通行的。之後的實證研究印證了現實的社交網路的冪率係數r確實接近於網路的有效維度。
ChenW等人[22]從博弈論的角度出發,將網路中的每個節點看作一個網路博弈的玩家,其長邊冪率分佈係數r是其策略,r值偏大表示該節點側重於連線其附近的節點,隨著r值減小,其連線格子上較遠距離節點的概率增加。Chen W等人在這一網路博弈中獨創性地引入了一個新的效用函式,使得每個節點的效用是其隨機長邊的平均格子距離與隨機長邊有反向邊的平均概率的乘積。前者表明,節點想連線遠處的節點以得到不同的資訊,而後者表明節點傾向於連邊的互惠性(reciprocity)以使聯絡更加穩定。Chen W等人在理論上論證了DRB(distance-reciprocity balanced,距離—互惠平衡)博弈僅有兩個納什均衡,而適於通行的小世界網路是唯一一個穩定的均衡,任何團體都無法通過共謀偏離這個均衡以使得團體的成員獲利,而且即使絕大多數節點都隨機擾動,節點也能很快回到適於通行的小世界模型狀態。他們還通過模擬實驗進一步驗證了即使節點不瞭解其他節點的連線偏好,也同樣會收斂到適於通行的小世界網路。Chen W等人還通過人人網和美國LiveJournal兩個實際網路進行了驗證,實驗發現DRB博弈仍能很快收斂,而收斂後節點的連線偏好與實測結果的相關度相當高,其平均值也接近網路的有效維度。
5.2 影響力最大化問題
影響力模型和最大化研究大多數基於獨立級聯模型(independent cascade)的影響力最大化問題,主要考慮單個個體傳播或純競爭性多個體傳播,傳播過程是一次性的,並且傳播結果用期望值作為度量標準。在此基礎上,從幾個不同的角度對問題進行了推廣。
筆者首次提出了基於概率保證的影響力最大化問題[23],典型的應用是:話題或事件希望能以一定的概率保證覆蓋超過一定比例的節點,以此來爭奪社交網站上的熱點事件或者十大話題等。筆者考察當對同一事件或物品的資訊傳播反覆多次出現時,其影響概率逐漸累積之後,會對節點決策產生的影響,並基於此提出了基於概率累積的影響力最大化問題[24]。Lu W等人[25]還首次提出了一個比較獨立級聯模型(comparativeindependent cascade model, Com-IC model),將雙個體在競爭或互補情形下的傳播方式統一表述在一個模型下。文中研究了模型的性質,並著重研究了在互補情形下的影響力最大化問題。基於此改進了基於反向可達集合的高效演算法,並提出了夾心近似策略,當影響力函式本身不具備子模性(submodularity)時仍能給出一定的近似比。
5.3 基於資源分配的影響力節點發現演算法
通過考慮鄰居節點的資源以及傳播率對目標節點的影響,Shang M S等人[26]提出了一種改進的迭代資源演算法來識別影響力節點。該方法認為目標節點的重要性程度受鄰居感染情況以及傳播率的影響,鄰居的影響力資源為基本的中心性,如:度、k核、接近中心性、特徵向量中心性等。通過在4個真實網路中的SIR模型結果比較,該方法和原有的方法相比在沒有增加引數以及複雜度的情況下,提高了精確度。特別地,在 Erdos-Renyi 網路裡,kendall係數提高了23%左右,在Protein網路裡提高了24%左右,效果比較明顯。該改進的迭代資源演算法考慮了網路結構以及傳播屬性,可以更好地識別網路中的重要性節點,結合網路結構和傳播動力學機制對識別核心節點具有重要的啟示作用。
6 結束語:
本文聚焦網路大資料這一當前熱點領域,從網路鏈路預測及推薦、動態演化網路演算法研究以及網路小世界模型與資訊傳播3個方面,展示如何從資料複雜度的角度對大資料的演算法設計進行突破。希望能通過提出新的演算法複雜性理論的基本思想和演算法設計的基本框架,對資料科學基礎理論和基本方法論的形成產生貢獻。
致謝:
在本文的撰寫過程中,得到了周濤教授、陳衛研究員、陳端兵教授、沈華偉研究員、邵俊明教授等的大力支援和幫助,部分素材來源於他們的研究工作,在此一併表示真誠的感謝!
來源:大資料期刊
作者簡介:張家琳(1983-),女,中國科學院計算技術研究所副研究員,主要研究方向為線上演算法、近似演算法、社交網路、演算法博弈論等。
孫曉明(1978-),男,中國科學院計算技術研究所研究員,主要研究方向為演算法與計算複雜性、量子計算等。