資料探勘巨擘俞士綸:真實資料來源不止一個,學習不僅要有深度還要有廣度
2019年10月17日-19日,CNCC 2019在蘇州金雞湖國際會議中心舉辦,雷鋒網作為戰略合作媒體,對大會進行全程報導。
在18日上午的特邀報告中,資料探勘領域巨擘美國伊利諾大學芝加哥分校俞士綸教授做了“Broad Learning:A New Perspective on Mining Big Data”(廣度學習:大資料探勘的新視角)的分享。
當前大家普遍對深度學習瞭解較多,而事實上對於資料我們不僅要挖得深,還需要挖得廣。例如對於網頁資料,深度學習能夠單獨學習文字資料或影像資料等裡面的特性。但是真實的網頁可能同時包含文字、圖片、音訊、連結等等的資料。
事實上,我們講的大資料並不是說所有資料都很大,只是整體很大而已。更多的情況是,我們擁有許多不同來源的(小)資料,它們之間相互有或多或少地聯絡。如果能夠將這些不同的資料來源整合在一起,那麼我們將挖掘出更多有價值的資訊。
俞士綸教授認為,首先我們應當認同這樣一個觀點,即所有型別的資料都是可用的,換句話說就是沒有沒價值的資料。問題的關鍵就在於我們如何將這些資料融合在一起。那麼如何做呢?這就需要「廣度學習」了。
所謂「廣度學習」,俞士綸教授認為其本質就是如何將各種各樣的資料整合在一起,以獲取更多的資訊。
在採訪中,俞教授向AI科技評論強調說,廣度學習在研究上的側重點是資料,而深度學習的側重點則在於模型;換句話說深度學習的「深」是指對資料訓練的模型層數深;而廣度學習的「廣」是指我們訓練模型的資料型別廣。這兩個概念側重的點不同,但可以結合在同一個模型當中。
要做好「廣度學習」,俞教授認為需要以下三步:
-
首先,定義並獲取相關的有用資料來源,也即找到對你的問題有用的資料。
-
其次,設計一種模型來將異質資料來源資訊融合起來。
-
最後,基於模型整體的需求從各種資料來源中深度地去挖掘資訊。
而從具體的技術路線角度來看,俞士綸教授認為廣度學習的型別大致可以分為三類:
-
首先是在同一個實體上有不同型別資訊的學習。這種型別的廣度學習包括 Multi-view Learning、Multi-source Learning、Multi-model Learning 等。
-
其次是在不同的但型別相似的實體上資訊的學習。這包括 Transfer Learning。
-
另外是在有複雜網路型別關係的不同型別實體資訊的學習。這包括基於融合的異質資訊網路(HIN)。
對於廣度學習,最為關鍵的任務主要有兩個:資訊融合和知識發現。因此對應的就有兩個基本的挑戰,其一是發現什麼資料是有用的,如何將這些資料融合在一起;其二就是要明白想要挖掘什麼(並不是所有資料對特定的知識發現都有用),以及如何從融合的資料中挖掘出有用的知識。
這有很多例子。
例如藥物發掘。新藥上市通常很貴,原因在於研發新藥的成本非常高,發現一個新藥之前可能失敗成千上萬次。但如果我們能夠用大資料的技術來做預測,把那些不成功的案例刪除掉,那麼就能夠在很大程度上降低新藥研發的成本。但是,決定一種藥物能否治療一種疾病,並不僅僅是看藥物的化學成分的;事實上,這需要很多種不同型別的資訊或資料。例如基因資訊、器官組織資訊、藥物傳播臨床試驗資訊等。傳統的資料探勘方法僅僅能夠針對一種資訊進行深度挖掘,但事實上若想要取得較好的效果,則需要將多種資訊綜合起來。下面這張圖融合了多個不同資料之間的關係,這在本質上是一個異質網路。
在這張圖上,可以定義所謂的Meta-Path,來表示兩個資料之間的關係:
比如兩個資料雖然不一樣,但相互有影響,那麼就可以直接連在一起;兩個化學藥品,如果它們有相同的副作用,那麼就可以說它們有關係。這種關聯可以幫我們來決定一個藥物是否可能有用。
再例如,在電影推薦中,傳統的方法往往只是根據使用者的打分資訊進行推薦,但事實上使用者是否喜歡一部電影往往還取決於更多的因素,例如使用者的個人背景、使用者的朋友圈以及其他因素(例如電影是某個導演拍攝或某個演員主演等)都會影響使用者是否觀影以及觀影體驗。
類似於前面的例子,也可以採用相似的方法將不同的資訊進行融合來提高推薦的準確性。
俞士汶教授認為,在大資料時代資料是最為寶貴的資源。對個人和企業來講,對大資料的挖掘將是一次顛覆性的機會;大資料有四個「V」,所以對大資料的挖掘同時也是一種挑戰。俞教授在報告中則主要是解決大資料的Variety,也即透過融合異質資料來源來進行廣度學習。真實生活中的資料一般都不是隻有一個資料來源,而是要融合多個資料來源才行。因此有效的學習應當同時需要廣度和深度。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2660726/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 人工智慧、資料探勘、機器學習和深度學習之間,主要有什麼關係?人工智慧機器學習深度學習
- 理解Transformer [資料探勘深度學習]ORM深度學習
- 學習英語,首先還是要有學習的習慣
- 資源 | 25個深度學習開源資料集,have fun !深度學習
- 深度學習(一)深度學習學習資料深度學習
- 職場裡,對資料庫要有敬畏之心!資料庫
- 資料探勘實習面試面試
- 大資料崗位職責與學習,未來的職業崗位,主要有哪些大資料
- 大資料技術棧,主要有哪些大資料
- 深度學習資料深度學習
- 資料探勘資料集下載資源
- 資料探勘資源彙總
- 深度學習哪家強?用資料來一較高下吧深度學習
- 一定要有密碼才能刪除資料庫的表嗎?密碼資料庫
- 深度學習資料集深度學習
- 淘寶交易資料還原一個最真實的中國——資訊圖
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 如何系統地學習資料探勘
- 大咖 | “大資料之父”達文波特:成功的資料科學家不一定要有研究生學位大資料資料科學
- 想搞資料探勘分析,應該學習java還是python?JavaPython
- 學習Linux要有哪些心理準備?Linux
- 先推薦一個不錯的學習資料站
- 我們常說的“資料治理”主要有什麼用?
- 開源需要有點精神的人
- 學習一門技術需要有一顆堅持的心
- JavaWeb學習筆記——Tomcat資料來源JavaWeb筆記Tomcat
- 達觀資料王文廣:如何玩轉自然語言理解和深度學習實踐?深度學習
- 深度學習(一)之MNIST資料集分類深度學習
- 深度學習--資料預處理深度學習
- 統計學與資料探勘
- 《資料探勘R語言實戰》圖書介紹,資料探勘相關人員看過來!R語言
- 【資料處理】使用深度學習預測未來銷量深度學習
- 資料不出本地,還能享受大資料訓練模型,聯邦學習提供一種應用廣闊的學習新正規化大資料模型聯邦學習
- HDF5資料格式不適合深度學習 - KDnuggets深度學習
- java中如何實現多個資料來源?Java
- 幾個國外用來深度學習的雲端計算PaaS資源 - svpino深度學習
- 資料視覺化學習資源視覺化
- 《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive BayesKNNAI