資料智慧的現在與未來

微軟研究院AI頭條發表於2018-11-27

我們正處於大資料和數字化轉型的時代:資料無處不在;運用資料驅動的思想和策略在實踐中逐漸成為共識;資料的價值已在科學研究和工商業的不同領域得到充分展現。然而,如果無法從資料中提取出知識和資訊並加以有效利用,資料本身並不能驅動和引領數字化轉型取得成功。如何讓資料發揮它最大的價值?“資料智慧”(Data Intelligence) 應運而生。

資料智慧的現在與未來

資料智慧是一個跨學科的研究領域,它結合大規模資料處理、資料探勘機器學習人機互動、視覺化等多種技術,從資料中提煉、發掘、獲取有揭示性和可操作性的資訊,從而為人們在基於資料制定決策或執行任務時提供有效的智慧支援。

如果將資料視為一種新的“石油”,那麼資料智慧就是“煉油廠”。資料智慧通過分析資料獲得價值,將原始資料加工為資訊和知識,進而轉化為決策或行動,已成為推動數字化轉型不可或缺的關鍵技術。資料智慧的重要性越來越凸顯,並在近年來取得快速發展。

資料智慧技術賦予我們探求資料空間中未知部分的能力,在不同領域裡蘊育出巨大的機會。眾多基於網際網路的新型業務,包括搜尋引擎、電子商務以及社交媒體應用等,從本質上就是建立和運作在資料智慧的基礎之上

資料智慧技術正在重塑傳統的商業分析或商業智慧領域。根據Gartner的調研,一種新的 “增強分析”的分析模式正在顛覆舊有方式,預計在幾年內將成為商業智慧系統採購的主導驅動力。這種“增強分析”模式正是由資料智慧技術賦能,提供了自然語言查詢和敘述、增強的資料準備、自動的高階分析、基於視覺化的資料探索等多種核心能力。

那麼,資料智慧領域的技術進展如何?未來,資料智慧的研究又有哪些熱點?    

資料智慧的技術進展

資料智慧相關的核心技術大致可以分為資料平臺技術、資料整理技術、資料分析技術、資料互動技術、資料互動技術、資料視覺化技術等部分。與傳統意義上的資料處理、資料分析相比,資料智慧面臨很多新挑戰、新問題。在解決這些問題和挑戰的過程中,各種技術創新層出不窮。

大資料系統與平臺

為了支援大規模的資料處理與分析任務,全新的資料儲存系統需要能夠容納和支援高效資料吞吐、高可伸縮性和高容錯性。傳統的資料庫OLTP面向交易型需求而設計,無法滿足大資料統計分析類的查詢需求和應用。當前的大資料系統更加強調讀寫效率、資料容量以及系統的可擴充套件性。具體來說,將資料分割成塊,並將每塊複製多份後分散到不同物理機器上儲存,用冗餘的資料塊來防止因個別機器損壞對資料完整性的影響。資料的冗餘儲存不但提高了系統的可靠性,同時也可以提高了系統在資料讀取時的併發效能。另外,為降低成本,現代的大資料系統執行在價格相對低廉的普通伺服器上;這些機器通過高速網路連線,實現高效的資料傳輸。

處理和分析大資料涉及大量的計算,催生了很多分散式NoSQL資料處理系統。在計算模型上,MapReduce的推出給大資料並行處理帶來了革命性的影響。在MapReduce基礎上進一步提出了新的計算模型Spark。Spark充分利用在記憶體中計算的優勢,並且大大優化了原來MapReduce中Shuffle所帶來的效率問題。經過幾年的發展,Spark已經替代MapReduce成為業界最為重要的大資料處理框架,並且發展了非常豐富的應用生態。

此外,基於流 (Streaming) 的計算模型被開發出來以支援不斷變化和更新的大資料應用。在流計算模型中,為了達到更實時的更新,每到達一個資料事件的時候就進行一次處理。Spark Streaming、Storm、Flink都是比較流行的流計算平臺。

在支援對大資料進行線上互動式的查詢和分析方面,來自不同領域的技術正在快速融合,共同構建更加實時高效的大資料互動查詢平臺。以ElasticSearch為代表的一類技術,借鑑搜尋系統的索引構架和技術,對大規模非結構化和半結構化資料進行分塊、索引來支援快速查詢。以Apache Kylin為代表的另一類技術則將傳統的資料立方體技術推廣到大資料領域,通過將預先計算的部分資料立方體快取起來,大大提高了執行時的查詢速度。

隨著技術的發展,對資料進行高語義級別的自動分析變得越來越重要。自動分析技術往往需要頻繁計算在不同查詢條件下的聚合結果,一個分析查詢可能涉及成百上千次簡單的聚合查詢。這就對查詢效能提出了更高的要求。為了解決這個問題,同時也考慮到大資料分析中絕大多數任務對資料的完整性不太敏感這一特點,學術界又提出了BlinkDB、BigIN4等技術和系統,希望利用通過取樣或者預計算得到的部分資料來對使用者的查詢結果進行估計,從而達到快速計算的目的。其中BlinkDB試圖利用分層採用的方法來減少估計的誤差,而BigIN4則試圖通過貝葉斯估計方法來優化使用者查詢的估計誤差。

基於自然語言的互動

為了降低資料分析的門檻,使用自然語言作為互動方式顯然是一個理想方案,可以極大地方便普通使用者快速、有效地進行資料探索與資料分析。近年來,隨著自然語言處理人工智慧技術的快速進步,使用自然語言來查詢和分析資料變得更加可能。

自然語言資料分析要解決的最重要的問題是語義解析。語義解析技術是將自然語言直接轉化成可以執行的程式 (例如 SQL語句)。基於關係資料庫/資料表的語義解析技術是解決自然語言互動式查詢的重要途徑。早期主要採用基於模式匹配的方法,後來出現了基於語法分析與語義分析的第二代方法。

近年來,隨著深度學習技術的發展,湧現出了一系列的端到端的語義解析模型。一般的端到端模型採用sequence-to-sequence的方法,將自然語言進行序列編碼,然後逐步生成SQL語句,但是這種方法的缺點是容易產生不正確的或者不可執行的SQL語句。因此,在端到端的方法的基礎上會融合各種知識來減少搜尋空間,增加約束,包括嵌入SQL語法知識,引入表格資訊,甚至是引入外部的知識庫,比如WordNet

分析的自動化

資料分析是資料智慧中最核心的部分,大致可以分為描述性分析、診斷性分析、預測性分析、指導性分析等四個類別,每個類別基於資料回答不同的問題,難度越來越大,所能帶來的價值越來越高,所使用的技術也越來越複雜。資料智慧分析工具的發展經歷瞭如下四個重要的階段和層次。

階段1:資料智慧專家深入學習和了解特定領域的問題,構建端到端 (end-to-end)的分析流程和平臺,以特定領域的資料分析師為主要使用者,以解決特定領域的專業問題為主要任務。

階段2:資料智慧專家通過對各個領域的深刻總結,提煉出在不同領域的任務中所共同依賴的一些必要的需求單元,比如分佈差異分析、主驅動因素分析、預測分析等等。把各個需求單元對應的資料智慧技術以積木塊搭建的形式組成一個分析平臺,提供給各個領域使用。使用者按照自己分析任務的需求,可以在分析流程中選擇相應的技術模組。

階段3:進一步發揮機器的“智慧”性,在分析任務的各個環節,通過主動提供相關洞察 (Insight) 的形式,為使用者的下一步決策或行動提供資訊充足的引導性建議,從而更大程度地提高人類智慧與機器智慧的互補,完成更高效的協作。

階段4:在前三個階段中,資料的處理、特徵的選取、模型的設計以及引數的優化等等核心環節嚴重依賴於機器學習專家的知識和技能。隨著機器學習理論的進一步發展,Auto ML技術開始出現並發展起來,其核心是基於對已有機器學習成果的總結,將上述重要環節進行系統化的抽象,並結合不斷快速發展的計算機處理能力,使其逐漸自動化,從而進一步降低資料智慧模組的開發門檻,拓寬對長尾任務的支援,推動人類智慧和機器智慧的進一步融合,也使不同領域的普通使用者以自助方式按需定製針對具體任務的資料智慧模組變得可能。

資料融合的自動化

如何有效整理、融合如此多樣且繁雜的資料對於資料智慧領域非常重要。資料融合的相關技術在整體上需要解決以下關鍵問題。

首先,在機器從資料中獲取智慧之前,機器能夠正確地讀懂各種各樣的資料。對於機器友好的資料是類似關係資料庫的結構化資料。然而,現實世界裡存在著大量的非結構化資料,比如自然語言的文字;還有介於兩者之間的半結構化資料,比如電子表格。目前機器還很難理解這些非結構化的方面,需要將資料處理成對機器友好的結構化資料,機器才能發揮其特長,從資料中獲取智慧。非結構化資料、尤其是半結構化資料向結構化資料的轉化,是實現資料智慧不可或缺的先決任務。

其次,資料並不是孤立的,資料智慧需要充分利用資料之間存在的關聯,把其他資料來源或資料集所涵蓋的資訊傳遞並整合過來,可以為資料分析任務提供更豐富的資訊和角度。

最後,資料並不是完美的,提前檢測並修復資料中存在的缺失或錯誤,是保障資料智慧得出正確結論的重要環節。

資料視覺化

資料視覺化本質上是為了感知和溝通資料而存在的,涉及到不同的領域,諸如人機互動、圖形設計、心理學等。在當前大資料盛行的時代,資料視覺化逐漸嶄露頭角,扮演著越來越重要的角色。

視覺化技術用於分析,已成為資料智慧系統不可或缺的部分。這些技術通常會整合在一個圖形介面上,展示一個或多個視覺化檢視。使用者直接在這些檢視上進行搜尋、挑選、過濾等互動操作,對資料進行探索和分析。視覺化工具進一步趨於簡單化、大眾化,使一些高階的分析變得更加簡單。一些高階的視覺化設計,如 Word Cloud、Treemap、Parallel Coordinates、Flowmap、ThemeRiver等,也逐步成為主流。

在決策過程中,視覺化也發揮著重要的作用,它能將資訊展示得更準確、更豐富、更容易理解,從而極大提高人與人之間的溝通效率。視覺化敘事 (visual storytelling) 研究如何將視覺化用於資訊的展示和交流。當今主流的資料分析平臺,例如Power BI、Tableau、Qlik等,都提供了視覺化敘事的模式。視覺化敘事的研究目前還處在一個比較早期的階段,人們還在探索它的各個方面,例如修飾形式、敘事方式、互動手段、上下文、記憶性等。如何評估一個視覺化敘事也有待進一步研究。

基於隱私保護的資料分析

近年來,隨著資料隱私問題成為關注的焦點,以及相關資料保護的立法 (比如GDPR) 開始實施,研究人員開始積極探索保護隱私的資料分析技術,即在保護資料隱私的情況下,對資料進行管理和處理。

一個方向是提供可信計算環境去執行敏感操作。使用者的資料始終是加密的,只有在可信計算的環境中才會解密及處理。

另一個方向是直接對加密資料進行處理得到想要的結果,因為資料沒有解密,隱私得到了保證。選擇性加密技術早已廣泛應用於多媒體內容保護,但很難擴充套件到其他型別的資料。另一種適用性更廣的方法是同態加密,它允許對密文進行某些同態操作,例如加法和/或乘法,使得密文下的運算結果在解密後與對明文執行相應操作的結果一致。

資料智慧技術的未來熱點

資料智慧研究契合當今大資料時代各領域、各行業從資料中挖掘、實現價值,進行數字化轉型的迫切需要,因而在近年來得到了充分重視,發展迅速。隨著資料智慧在更多領域的落地和發展,新的應用和場景、新的問題和挑戰將進一步激發和驅動數字智慧研究保持強勁的發展勢頭,邁向更高的層次。展望未來,資料智慧技術將朝著更自動、更智慧、更可靠、更普適、更高效的方向繼續發展。

熱點1:在更高的語義理解水平上進行分析

為了更加智慧地分析資料,需要對資料有更加豐富的語義理解。與知識圖譜 (Knowledge Base) 不同,雖然資料分析中最常用的關係資料模型也是對實體和關係的建模,但是關係資料模型的建模是為查詢和儲存效能而優化的,往往丟失了大量語義資訊。如何引入領域知識和常識型知識對於更好地理解資料至關重要。

如何從表格資料和其他容易獲得的文字資料 (如web網頁) 中自動獲取語義資訊來增強和豐富表格資料是一個需要研究的重要方向。比如,確定表格中行或列的實體型別(包括人名、地名、機構名等命名實體以及時間、地址、貨幣等資料型別)。表格往往不具有文字中的豐富的上下文資訊,因此表格中的實體識別不同於其他自然語言處理任務中的實體識別,十分具有挑戰性。除了處理實體識別外,資料表格中實體關係的挖掘和分析也至關重要。充分挖掘實體之間的關聯關係可以完成一些實體型別的推薦和回答資料分析的問題。

熱點2:構造通用知識和模型的框架

人類對知識和方法能夠舉一反三,觸類旁通。具體到資料分析領域,分析中用到的知識和模型需要在不同資料物件和分析任務之間共享和遷移。在機器學習領域,已經有很多相關工作,也提出了一些方法,比如遷移學習多工學習、預學習模型等等。要實現這個“舉一反三”的目標,除了需要深入研究具體的機器學習演算法,也需要從模型和知識的框架體系來思考,研究適合資料分析領域的通用知識和模型的原語體系,以及知識和模型的遷移共享的統一框架。

熱點3:建立高質量的訓練資料集和基準測試資料集

由於訓練資料的缺乏,人工智慧深度學習等技術在資料智慧領域的進一步應用遇到了很大的困難。正如ImageNet資料對於計算機視覺領域的研究起到了顯著的推動作用一樣,資料智慧領域的研究也亟需建立起一整套公用的大規模、高質量的訓練資料集和基準測試資料集。一旦有了豐富的訓練資料,資料智慧領域的很多研究,諸如自動分析、自然語言互動、視覺化推薦等等,將會取得突破性的進展。

熱點4:提供具有可解釋性的分析結果

使用者將不再滿足於僅僅依賴黑盒式的智慧、端到端地作用於整個任務,而需要更細粒度的、有針對性的、更透明的資料智慧。例如,資料智慧用於財務審計系統中,準確推薦最有風險的交易記錄進行優先審查,以達到在最小化系統風險的前提下,最大化審計效率。在這類系統的研發中,需要構建可理解性強的模型。在推薦高風險交易記錄的同時,儘量提供系統是依據哪部分資訊、通過怎樣的邏輯判斷這是一條高風險交易的相關依據。這與過去通常使用的黑盒技術路線有了明顯的變化,將成為今後技術發展的一個趨勢。

熱點5:人類智慧和機器智慧更加緊密融合

現有人工智慧技術從本質上依然只是被動服從人類設定的既定邏輯然後自動地執行,歸根到底還是無法突破人類傳授的學習框架,沒有創造力。因此在可預見的未來,資料智慧將依然無法擺脫人與機器協作的模式,需要全面地總結人類在資料分析方面的智慧和經驗,便於轉化為機器演算法,系統化地整合到已有的智慧系統當中。

熱點6:強大的指導性分析成為主流

資料分析的核心目標之一便是指導行動,無論分析得有多好,如果不採取行動,那麼分析的價值就不會得到實質的體現,這就是指導性分析的重要價值所在。

例如,根據詳盡的分析,資料智慧預測某品牌在接下來一個季度的銷量會下滑10%。如果分析任務結束於此,那麼資料智慧並沒有盡到全部的責任,人還需要根據後續分析結合自己的經驗去搞清楚怎樣才能減輕甚至避免潛在的銷量下滑。相應的指導性分析可以是,如果想保持下季度銷量不下滑,應該採取怎樣的行動。指導性分析的結果可以是把某一類子產品的產量減少20%,同時把另兩類子產品的產量各增加10%等等。

現在的資料智慧技術在給出指導性分析的同時,並沒有具備足夠解釋性的模型,無法提供充足的依據,從而不足以讓人類使用者充分信任自動推薦的結果。提供具有更好解釋性的指導性分析是一個趨勢

熱點7:基於隱私保護的資料分析更加成熟完善

通過從立法、技術、到使用者參與等全方位的共同努力,隱私保護將被進一步納入到未來的資料分析。從技術層面, 應該確保個人資料由資料主體控制如何收集、管理、處理和共享,並在整個生命週期得到保護,同時應開發並部署保護隱私的資料處理技術,以便在保護隱私的前提下,資料得以處理並獲得想要的結果。

熱點8:智慧分析助手得到普及

智慧代理 (Intelligent Agent) 技術與資料分析技術的融合是一個重要的方向。在不久的將來,智慧的資料分析助手能夠幫助人類更加高效地分析和利用資料。

這些資料分析智慧助手通過自然語言對話的方式與人交流資料分析的任務和結果,理解分析的背景和上下文,可以完成人類交給的特定資料分析任務 (根據分析的語義層級不同,可分為基本分析命令和高階資料探勘任務),也可以把具有商業價值的資料事實推薦給相關人類使用者 (比如自動從資料中挖掘到的資料洞察),並對某些資料事件做出智慧判斷和適當的反應 (比如自動對資料中需要注意的變化進行提示和警報)。這樣的智慧體還具有一定的學習能力,能夠通過與人類分析師的對話交流積累特定領域的知識,從而能夠更加具有針對性和更加智慧地進行自動資料分析

熱點9:協作化的可視分析

隨著各種溝通工具的興起和普及,協作化的可視分析會成為熱點。不同於傳統的面對面、小規模的協作,新的協作分析往往是非同步的和大規模的,人們在不同的時間和地點,使用不同的裝置,對同一個資料進行可視分析。在此過程中,如何協調人們的協作?如何避免重複性的工作?如何保證不同人在不同的顯示終端上看到的資料是一致的?如何共享各種資訊?如何搭建一個高效的協作平臺?這些都是需要解決的技術挑戰。

熱點10:視覺化將無所不在

在更長遠的將來,我們相信視覺化終將變得透明。就像文字和語音一樣,廣泛滲透到我們的日常生活中。為此需要有三個方面的技術儲備:

首先,視覺化檢視必須能夠被快速地生產和消費。目前,多數視覺化檢視的生成還是離不開人的參與,但是在人工智慧的幫助下,未來在人工智慧的幫助下,視覺化檢視將能被大規模和精確地生成,從而大大降低視覺化創作的開銷。

其次,要進行互動方式的變革。傳統的基於鍵盤、滑鼠的互動模式不是最自然的方式,各種人類更習慣的方式 (例如手勢、筆紙、觸控等) 需要慢慢演化成更成熟的互動手段。

最後,需要顯示裝置的普及。顯示裝置終將被整合到人的生活中去,無論是穿戴式的、手持的,還是出現在人們日常生活的物品表面上的。只有當顯示裝置無處不在的時候,視覺化才能真正變成一種溝通的基本方式。

相關文章