獨家 | 日本機器學習領軍人杉山將:為什麼說弱監督學習是未來的熱門?

AI科技大本營發表於2019-02-28

前不久結束的第三屆CCAI大會,日本人工智慧和機器學習領域的新一代領軍人物杉山將(Masashi Sugiyama)為我們帶來了一場關於弱監督機器學習的精彩演講,這是機器學習領域少有的來自日本的聲音。
作為日本理化學研究所先進智慧研究中心主任,杉山將是這個領域最知名的學者之一。他在機器學習領域發表過很多重要的理論,他寫的那本《圖解機器學習》很早就被翻譯成中文。
為了給到讀者更多資訊,AI科技大本營獨家約採了杉山將,就弱監督學習的很多細節及其實現,以及他本人最新的研究方向和成果等進行專訪,杉山將還談到了日本在AI和機器人領域的研究現狀。enjoy!

翻譯 | AI科技大本營(rgznai100)

編輯 | JeyZhang

AI科技大本營:您之前給大家做了《弱監督機器學習的研究進展》的演講,內容非常有趣,也比較前沿,您是否能夠簡要地談談什麼是弱監督學習呢?

杉山將:基於大資料的機器學習是當今的一個熱點,這的確是一個很重要的研究方向,其技術也被很好地應用於一些領域。但是對於某些領域,我們有時獲取不到足夠量的資料。在日本的RIKEN資料研究中心,我們致力於醫療、基礎設施和自然災害等領域的研究,對於這些領域而言,同樣是難以獲取大規模資料的,但我們仍然想用機器學習技術來改善這些領域中的問題。

這裡面涉及了很多的技術分支,有些人使用了遷移學習的技術,利用其他任務上的資料來解決自己的問題,比如楊強教授和Fei Sha教授等,他們是機器學習領域的知名學者。我對遷移學習也很感興趣,在一年前也出版了一本相關的書籍。另外,周登勇教授提到的資料眾包 (crowd sourcing) 是一種廉價獲取大規模資料的方式,但資料質量上會有一定的損失。

以上提到的都是比較熱門的研究方向,但還有一個熱門,就是弱監督機器學習。我們知道,通常在小資料上進行機器學習並不太容易,因為統計意義上機器學習的誤差與

獨家 | 日本機器學習領軍人杉山將:為什麼說弱監督學習是未來的熱門?

成正比(其中n表示資料量大小),因此資料量越小產生的誤差越大。如果在目標任務上沒有足夠多的先驗資料,我們很難把這個任務做好。然而,作為機器學習領域的研究員,我們希望能夠有一種普適、通用的方法來解決各個任務上的問題,這裡我們將這些任務看作是相互獨立的。

我們所提出的方法,是希望在獲取成本較低的資料上進行機器學習,一個最簡單的例子就是半監督學習。假設我們有少量的標註資料和大量的未標註資料,未標註資料的獲取幾乎沒有成本,這得益於網際網路和感測器技術的發達。半監督學習是最近十五年以來一直研究的方向,其中有一些比較成功的研究成果,當然還有一些看上去沒有那麼成功的,不過我認為那些看上去不怎麼成功的研究成果只是因為還不被看好而已。

我們這次考慮了多種不同的設定。一種是我們有兩類半監督的資料,有時這是一個難題,有時我們也可以在沒有先驗資料的條件下很好地解決這個問題。另一種就是PU學習,也就是當我們只有正例資料和未標註資料,但獲取這種型別的資料往往比較困難。

AI科技大本營:您之前是說在PU資料集上的學習效果要優於PN資料集嗎?

杉山將:這取決於正負樣本的比例情況。我們考慮的一個問題是,正例資料和未標註資料的獲取成本都比較低,而存在相關關係的資料(PN資料,即正負例資料)的獲取成本是較高的。在這種情況下,如果我們有大量的正負例資料,那麼PN學習的效率並不高;但如果你有大量的正例和未標註資料,那麼PU學習將好於PN學習。而這一點在一些理論研究的實驗中已經得到了驗證。

AI科技大本營:您提到了半監督學習,請問半監督學習和弱監督學習是一回事嗎?

杉山將:弱監督學習是一個更加寬泛的概念。現在有了監督學習和無監督學習方法,而我們對介於兩者之間的技術很感興趣。半監督學習通常是用於某些特定的場景:有許多的未標註資料,而正負例資料都較少的情況。半監督學習是一個已經定義好的術語,而弱監督學習則比較寬泛,弱監督學習對應有3種不同的方法。

AI科技大本營:我知道標註資料的獲取成本是非常高的,對於大多數的研究員而言這是一個難題。您剛才也提到了,其中有些人嘗試用遷移學習和資料眾包的方式來解決。請問為什麼您選擇了用弱監督學習的方法來解決呢?能否談談這背後的故事呢?

杉山將:作為一個研究員,我知道弱監督學習這個領域是很重要和有潛力的,這是我研究的動機。當然,實際中資料眾包的方法是很好,我也很感興趣。但是,以醫療領域為例,醫療資料通常是不允許上傳在網路上的,所以我們不能用資料眾包的方法來獲取。這些資料不是通用的,而是非常隱私的。我在日本有一些工業界的朋友,工業專案的相關資料也是不能上傳在網路上的,所以也是無法用資料眾包的方法。過去幾年,我的工作涉及了多個領域,有一些使用資料眾包方法是可行的,但也有些沒有用到,所以我們必須嘗試其他的方法來應對其他方法解決不了的問題。

AI科技大本營:在您學術生涯的早期,為什麼一開始就選擇了機器學習作為您的研究領域?

杉山將:當我還是一個計算機專業的大學生時,我對程式設計實現更加感興趣。那是在90年代中,我那時很喜歡程式設計和IT應用,但這僅僅是一個興趣愛好,我們很難成為程式設計的專業人士。

程式設計是有趣的,但這在某種程度上並不夠專業,所以我想著做一些數學上的研究,這看上去比較專業,但當時的我還是大學生所以還不瞭解研究中具體的細節。一些興趣愛好,例如攝影、音樂這樣的,會一直是我的興趣愛好。但我希望我能變得更加專業,所以我後來轉為了計算機專業的數學應用方向,我仍然是計算機專業的,但更關注其數學應用。我當時對人工智慧並不太感興趣,對如何讓計算機更加有用更感興趣。起初,在日本,我們有許多關於機器人的卡通,而這些卡通也伴隨我們成長。我們對這些智慧的機器人已經很熟悉了,所以很自然我選擇了這個方向。但有時,我對其中的數學原理更感興趣。

AI科技大本營:我記得演講ppt中有一個圖,x軸是線性模型、核函式模型和深度學習模型,在y軸上有監督學習和半監督學習,這讓我們感到很新奇,因為我們認為深度學習模型是典型的監督學習,這也是為什麼標註資料的獲取成本如此高和必須的原因。您說深度學習和無監督學習兩者也可以結合,這是一個新的概念,您能詳細談談嗎?

杉山將:某種意義上,深度學習是一個很模糊的概念。 研究員們的觀點是:使用深層模型進行研究。 但正如我所說到的,x軸是模型軸, 深度學習模型是其中的一個模型。 模型應該與學習方法相結合,這兩者是完全正交的,所以有了監督式的深度學習、無監督式的深度學習,還有深度強化學習。 只要我們有了新的學習方法,就可以與深度學習模型相結合, 這個才應該被稱為深度學習。 目前,深度學習往往只是在談深度學習模型,其實模型和學習方法都是深度學習研究領域的組成部分。

AI科技大本營:如果您所提出的弱監督學習方法成熟了並起作用了,我們能做什麼? 如果演算法或方法“成長”了,我們又能做什麼?

杉山將:在RIKEN中心,我們致力於醫學、管理、基礎設施、自然災害等領域的研究。然而,對於這些領域,我們需要能夠從小資料中進行學習的機器學習方法。因此,至少在這些領域中,有數百個應用任務可以使用我們所提出的方法。

AI科技大本營:您現在在尋找哪個領域進行技術的應用? 哪個最有前途? 有可能談談一些情況嗎?

杉山將:在研究應用方面,在這一點上我其實不能說很多。我們有合作伙伴,但還沒有確定。就個人而言,我是一個機器學習研究者,我可以談論自己的那一部分,這個應用已經與合作伙伴完成。我們在做醫學診斷,例如癌症或痴呆症的預測和評估。 我們在金融領域方面也有一些工業屆的夥伴,但更像是我們為自己的專案做貢獻。

AI科技大本營:那麼你們是為他們做基礎性工作嗎?

杉山將:在RIKEN中心,我們對公共問題更感興趣,如醫療保健、自然災害和基礎設施管理等都屬於公共問題,這些也是我們與一些工業界合作伙伴一起的工作。一些合作伙伴也是公共的,如醫院和自然災害研究中心。同時,工業界有些合作伙伴有自己的專案,我們則貢獻自己的技術來推動。因此,我們希望通過基礎機器學習技術的應用,能夠有助於他們未來的發展。

AI科技大本營:在中國,CSDN是目前面向開發人員的最大中文社群,社群大約有1200萬開發者。重點是他們希望使用AI技術來構建下一代的應用程式並應用於不同的行業。然而,他們中的大多數都不瞭解底層的數學,而傾向於使用一些現成的工具庫和軟體包。你們團隊有在建立一些這樣的庫和工具可供大家使用的嗎?

杉山將:就個人而言,我建立了一些簡單的MathLab工具箱並且將其放在網上。之後,與我合作的企業夥伴可以將其下載並進行測試,但只有幾個較小的原型。當他們真的想要在業務上使用我們的技術時,那麼他們應該要開發相應的專業軟體,這是他們需要做的。這實際上是一個很好的問題:我們是否應該開發可以在工業界使用的軟體包。目前,我不確定,因為它不容易決定,因為應該使用哪個框架我們都還不確定。

AI科技大本營:您是否真的認為這些工具可以被當做一個黑盒來獲取資訊,就像是一個“有魔力的”盒子?

杉山將:我不敢說“有魔力的”,但我們已經提供用於深度學習環境的軟體包,例如PU學習,而這已經放在網上了。

AI科技大本營:對於中國開發者而言,我們很好奇日本的AI開發是怎樣的?您能給我們描述一下嗎?

杉山將:不太容易描述全部的情況,但AI在我們那也被炒作得很火熱! 大家對AI很感興趣,所以和中國的情況非常相似。在日本我們沒有太多的AI工程師和研究人員。我們的機器人行業很發達,但相應的研究人員的數量並沒有得到應有的增長,在機器學習方面也是如此。 在中國,大多數優秀學生去美國留學,然後其中有很多學生回到中國開辦自己的公司,相當活躍。 而在日本,這種學生的人數非常少,因為青少年人數本來就較少,而且他們對醫學等其他領域會更感興趣。

AI科技大本營:如果我們有對日本留學感興趣的中國學生,您會對他們有什麼建議?

杉山將:這是一個很好的機會,我們非常願意接受和我們一起工作或學習的人。至少在RIKEN,我們已經接收到了一些中國博士生們的申請,甚至還有來自中國的朋友所介紹的人, 我們也接收中國學生的實習。 同時我也是RIKEN AIP中心的主任,也是東京大學的教授。 即使在東京大學,我們也接收中國的學生。本科生必須懂日語。 實際上在東京大學我有7到8名的中國學生,他們都做得很好!

AI科技大本營:如果您在AIP計劃或RIKEN或日本有特別的優勢,那麼與美國,歐洲或中國相比是怎樣的呢?

杉山將:在日本,我們有3個人工智慧研究中心,我們是其中之一。我們獲得了教育部的支援,這意味著我們可以專注於基礎技術的研究,其他兩個研究中心則得到經濟部和交通部的支援,在某種意義上它們更偏應用。具體的應用當然很重要,但在日本的過去20年裡,基礎研究被認為並不重要,我們的基礎研究資金不足。現在,教育部決定投資AI的基礎研究從而創立了研究中心,我們承諾將做10年。深度學習的研究在大約十年前就開始了,最開始是Hinton教授於2006年的那篇論文。十年以來,深度學習現在已經被炒作得很火熱,現在我們應該再寫出像Hinton教授這樣的論文。

所以現在,標準的深度學習是非常受歡迎的,而我們也應該做一些標準的事情,沒有人知道未來10年會發生什麼。大概在5到10年之後,還有很多其他問題不能通過深度學習來解決,我們可能需要完全不同的技術。我們在未來10年有機會研究完全不同的領域,這是很難得的。我們關注基礎研究這件事,也能夠吸引來自學術界的人士。

AI科技大本營:我的最後一個問題是關於日本的機器人。您可能不知道日本漫畫對於我們這一代以及下一代產生了多麼大的影響。實際上我們看過很多關於機器人和未來智慧機器的日本漫畫,還看過日本公司生產的機器人。就個人而言,您認為日本漫畫中描繪的智慧機器人是可以實現的嗎? 如果是的話,您認為到什麼時候我們能夠在現實中看到這樣的機器人?

杉山將:我相信在不久的將來這一定是能夠實現的。科學家們往往很難做出預測,因為每一天都在發生很大的變化。誰知道呢,也許明天就能實現,也許在2020年以後呢? 技術在不斷髮展,全球的軟體和硬體技術都在發展之中。就像在過去十年中,我們已經取得了很大的進步和技術發展。

相關文章