臭名昭著的資料清理和準備問題,如何利用AI完美解決?

AIBigbull2050發表於2020-03-19



2020-03-18 17:01:00

全文共 3299字,預計學習時長 10分鐘

臭名昭著的資料清理和準備問題,如何利用AI完美解決?

來源:Pexels


人工智慧和深度學習在處理非結構化資料方面表現突出,從自然語言理解和自動知識庫構建到影像和影片的分類和生成等方面都有著廣泛的應用前景。

然而,儲存在產品儲存庫、事務日誌、ERP和CRM系統等業務應用程式中的結構化資料卻被人們遺忘!表格資料仍然由老一代的資料科學技術處理,如基於規則的系統或決策樹。這些方法耗費人力,維護起來也很繁瑣,並且需要大量手工標記的資料。

儘管最近人工智慧的進步使得從非結構化資料中挖掘巨大價值成為可能,但關注結構化資料在促進業務、收入、健康、安全甚至治理方面的價值也同樣不容忽略。


與非結構化資料相比,結構化資料的主要挑戰之一是應用程式對資料質量的高度敏感性。雖然我們仍然可以觀看解析度不高的影片,或者在輕受損影像中識別物體。

然而,描述大型企業或製藥公司產品的大小、價格和數量屬性上的小錯誤可能會造成災難性的後果,這使得資料質量成為釋放結構化資料資產價值的一大障礙。

儘管資料管理社群花了幾十年的時間試圖解決此問題,但進展甚微。這主要是問題的複雜性、基於規則和邏輯系統處理問題的嚴重侷限性而導致的,以及資料清理和準備週期高額的人力成本。至於現在,顯而易見,只有很少甚至沒有人工互動的自動解決方案才是解決此問題的唯一可行方案。


這就是為什麼該問題適合用機器學習來解決,機器學習能夠捕獲企業資料的不同背景,並從可預測資料質量和建議進行資料修復的大量資料集模型中學習。因此使用機器學習來清理資料將解決結構化資料長期存在的問題:


· 它可以組合所有訊號和上下文,包括業務規則,約束(如功能依賴項和鍵)及資料的統計屬性;


· 它可以避免規則對邊緣情況的失控。在許多情況下,與清除干擾資料相比,管理這些規則可能更具挑戰性,而且成本更高。


· 最後,它可以提供預測以保證流程質量,從而提高信心。或者在疑難情況下巧妙地引入人工參與。


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

來源:Pexels


然而,受限於資料的本質(稀疏性,異構性,豐富的語義和領域知識),機器學習解決方案的優勢並不明顯。從積極的方面來說,諸如架構(列名,型別,域和各種完整性約束)之類的工件會編碼語義的重要資訊以及各種資料之間的潛在互動作用。兩個人使用相同的郵政編碼,卻生活在兩個不同的城市,這是不可能存在的。並且專案的總預算不能超過計劃的支出,這也是明確的示例約束。這種“結構”使資料的價值超出了機器學習模型可以挖掘和利用的統計屬性。


但挑戰同樣存在,結構化資料可能是異構的,組合了來自不同領域的資訊,例如文字,分類,數字甚至影像資料。它也可能非常稀疏。試想一個有100列的表格,每列都取自大小介於10到1000(例如製造商的型別,大小,價格等)之間的域值,以及描述企業產品的幾百萬行文字。不難想象,可能的組合空間非常“空”,只有一小部分組合有效。沒有任何結構,領域知識和約束,就很難了解很多有關如何生成資料或資料準確性的知識。因此,構建用於清理和準備結構化資料的可行機器學習解決方案有以下三個挑戰:


· 如何將背景知識表示為模型輸入,以處理資料稀疏性和異構性?在預測某一列中的值時,我們如何將關鍵約束、功能依賴、拒絕約束和其他複雜的完整性邏輯與要考慮的機器學習模型進行聯絡?


· 如何從有限(或無限)的訓練資料和原始資料中學習?以“錯誤檢測”模型為例,該模型應查詢各種錯誤,包括輸入錯誤,缺失值,不正確的值,矛盾事實,資料移位等。使用非常有限的可用錯誤示例來訓練此類模型是個不容小覷的挑戰。

· 如何擴充套件到數百萬個隨機變數?將問題簡單建模為所有互動資料塊之間可能的大規模聯合分配將完全失靈!

我們構建了Inductiv,這是一個用於結構化資料的AI平臺,專門用於構建描述資料如何生成以及如何被“汙染”的模型。這些模型可用於各種服務中,例如錯誤檢測,預測缺失值的錯誤校正,補充額外的列以及融合資料塊。

Inductiv建立在學術開源專案HoloClean( ean.io)的基礎上,該專案由滑鐵盧大學,威斯康星大學麥迪遜分校和史丹佛大學於2017年聯合啟動。

臭名昭著的資料清理和準備問題,如何利用AI完美解決?

運用AI清理資料


HoloClean採用著名的噪聲通道模型來解釋資料是如何生成以及如何被“汙染”的。HoloClean利用已知的領域知識(例如規則),資料中的統計資訊以及可用信源來構建複雜的資料生成和錯誤模型。這些模型將用於發現錯誤並建議最可能的值作為修復替換。


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

圖1:資料的生成過程是乾淨的,我們觀察到了“被汙染“”的版本。透過對這些過程進行建模和引數化,格式化清理資料可以表示為推理問題。


儘管此模型在資料整理和檢測的幫助下可預測問題,但是為可擴充套件解決方案提供足夠優秀的模型才是真正的難點。


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

構建錯誤檢測解決方案


在關於如何使用很少的示例來檢測錯誤的論文中,我們解決了一些前面提到的挑戰:


· 模型。錯誤的異質性及其副作用使得確定模型應捕獲的統計和完整性屬性,以便區分正確和錯誤的單元格,變得非常困難。這些屬性與描述管理資料集分佈的屬性級,元組級和資料集級功能相對應。圖2中描述的模型學習了一個表示層,該表示層捕獲了這些多級特徵,用以學習二進位制錯誤檢測分類器。

· 資料不平衡。由於錯誤很少見並且以不同的型別出現,因此機器學習演算法在面對不平衡的資料集時往往會產生效果不佳的分類器。少數群體的特徵被視為噪音,通常被忽略。因此,與多數類別相比,少數類別的錯誤分類可能性很高。本文推薦的模型的一部分是“資料擴充”過程(圖3),該過程根據學習到的錯誤生成策略來製造許多“偽”錯誤。同時使用一些錯誤示例來學習策略引數。儘管數量有限,不足以訓練錯誤檢測分類器,但足以幫助瞭解可能的錯誤分佈。


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

圖 2: 多級結構的錯誤檢測模型


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

圖3:生成錯誤的策略示例用於解決訓練資料類不平衡的問題


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

歸納引擎:結構化資料的現代化AI


人們會很快意識到,諸如準備,清理,錯誤檢測和缺失值歸因之類的資料問題都是可擴充套件的統一推理引擎應用程式,該引擎能夠對“結構化”資料的生成方式以及錯誤的引入方式進行建模。更重要的是,參考本文和隨附的演講中提到的各種原因,該引擎需要綜合現代機器學習原理,例如:


· 用於訓練資料生成的資料擴充和資料程式設計

· 學習對目標列/值進行建模的各種語境表示,例如學習異構資料型別的嵌入空間

· 利用諸如其他值重建一些觀察到的資料值之類的技術進行自我監督以儘可能利用所有資料

· 用於合併領域知識和規則以延伸到表達模型的擴充套件形式

· 用於資料分割槽和學習本地模型的系統樣式最佳化,以允許可擴充套件部署和容納具有多個資料分佈的資料集

歸納引擎將之前的所有結果整合在一個統一的AI核心中。引擎產生的預測可為各種資料準備服務。圖4描繪了涵蓋上述原理核心的主要組成部分,包括基於注意力的環境表示機制,分散式學習,資料切片以及具有多工學習的自我監督,用來處理不同的資料型別(例如,迴歸分析數字型資料和分類型別資料)。在MLSys 2020論文中,我們提出了一種基於注意力的學習架構,用於混合型別的結構化資料中缺失值的估算(圖5)。


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

圖4:歸納統一推理引擎中的核心元件


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

圖5:具有基於注意力的語境表示和多工學習的示例架構


臭名昭著的資料清理和準備問題,如何利用AI完美解決?

來源:Pexels

當今,絕大多數重要資料都是結構化的,但是質量卻不盡如人意,從而影響了其價值。

現代AI原理將這個臭名昭著的質量問題視為一個統一的預測任務,並圍繞規模,異構性,稀疏性以及結合已知語義和領域知識提出了一系列新的挑戰。而我們透過構建歸納引擎(第一個用於結構化資料的可擴充套件AI)成功應對了這些挑戰。


https://blog.csdn.net/weixin_42137700/article/details/104963125




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2681316/,如需轉載,請註明出處,否則將追究法律責任。

相關文章