楊強:深度學習、強化學習、遷移學習的結合及應用進展

周建丁發表於2016-07-29

作為首位美國人工智慧協會(AAAI)華人Fellow,唯一AAAI華人Councilor,國際頂級學術會議KDD、IJCAI等大會主席,香港科技大學計算機與工程系主任楊強教授在國內外機器學習界聲譽卓著。在此前接受CSDN採訪時,楊強介紹了他目前的主要工作——致力於一個將深度學習、強化學習和遷移學習有機結合的Reinforcement Transfer Learning(RTL)體系的研究。那麼,這個技術框架對工業界的實際應用有什麼樣的實際意義?在本文中,CSDN結合楊強的另外一個身份——國內人工智慧創業公司第四正規化首席科學家進行解讀。

第四正規化是原百度T10專家、楊強的弟子、遷移學習大牛戴文淵創立的公司,最初的定位是資料量豐富並且業務極為依賴數字化的金融領域,楊強在學術之餘希望推廣人工智慧技術在國內的發展,參與了第四正規化的創業。該公司最近釋出了一個先知平臺,自動化、智慧化的機器學習全流程為一大賣點,核心技術就是RTL。楊強認為,人工智慧成功的五個必要條件包括大資料、問題邊界清晰、外部反饋、計算資源和頂級資料科學家,強化學習和遷移學習分別能夠提供的反饋和適應性是單獨的深度學習模型所不具備的,同時深度學習的重心已經到了從研究轉向工業應用的時候。

圖片描述

參與創業的初衷

CSDN:您之所以參加第四正規化的創業,除了師生關係,還有其他的驅動因素?

楊強:其實我們一直熱衷於一件事:讓我們的技術走向社會。我們一直在研究人工智慧和遷移學習,另外我們也看到了很多大公司的侷限,很多大公司有自己的想法和目標,一個研究者並不能百分之百地發揮自己的想象力,所以我們就想自己做一個有情懷的公司,來支援我們自己做一些想做的事情。一個很好的例子就是Google的Deepmind,他們就是做他們想做的事情,這對我們來說是一個更重要的啟發。

在第四正規化,我的主要工作涉及設計演算法,包括強化學習、遷移學習的演算法,而在工程方面團隊有很多優秀的工程師已經在大公司受過很多的磨鍊,所以我們是互補的。

CSDN:第四正規化公開介紹的核心技術,包括您說到的深度學習、遷移學習、強化學習,還有一個記憶網路,第四正規化的技術體系和您研究的RTL體系是完全一致的嗎?

楊強:是一致的,當然是不是完全使用還看具體場景。我們比較認可的是強化學習、遷移學習,當用不同的結構把它們給組合起來,就是一種很新的好的學習方式。這種方式在現在還不是很流行,我們預計在今後幾年都會用起來,也會通過我們的平臺推動起來。

深度學習的侷限

CSDN:您如何看待深度學習的優勢和侷限?

楊強:深度學習的侷限來自於幾個方面:

  1. 表達能力的限制。因為一個模型畢竟是一種現實的反映,等於是現實的映象,它能夠描述現實的能力越強就越準確,而機器學習都是用變數來描述世界的,它的變數數是有限的,深度學習的深度也是有限的。另外它對資料的需求量隨著模型的增大而增大,但現實中有那麼多高質量資料的情況還不多。所以一方面是資料量,一方面是資料裡面的變數、資料的複雜度,深度學習來描述資料的複雜度還不夠複雜。

  2. 缺乏反饋機制。目前深度學習對影像識別、語音識別等問題來說是最好的,但是對其他的問題並不是最好的,特別是有延遲反饋的問題,例如機器人的行動,AlphaGo下圍棋也不是深度學習包打所有的,它還有強化學習的一部分,反饋是直到最後那一步才知道你的輸贏。還有很多其他的學習任務都不一定是深度學習才能來完成的。

CSDN:微軟的深度殘差網路是不是能解決表達能力的問題?

楊強:那是一個很好的躍進,它的層數也很多,表達能力很顯然往前推進了很多。但即使如此,它也沒有解決所有的表達的問題。因為它增加的是層數、層和層之間的連線數,而不是變數數,所以在變數數上還是有侷限的。我們認為深度稀疏網路在變數數的容納能力方面更強。

CSDN:遷移學習能解決哪些問題?

楊強:它主要解決兩個問題。

  1. 小資料的問題。比方說我們新開一個網店,賣一種新的糕點,我們沒有任何的資料,就無法建立模型對使用者進行推薦。但使用者買一個東西會反應到使用者可能還會買另外一個東西,所以如果知道使用者在另外一個領域,比方說賣飲料,已經有了很多很多的資料,利用這些資料建一個模型,結合使用者買飲料的習慣和買糕點的習慣的關聯,我們就可以把飲料的推薦模型給成功地遷移到糕點的領域,這樣,在資料不多的情況下可以成功推薦一些使用者可能喜歡的糕點。這個例子就說明,我們有兩個領域,一個領域已經有很多的資料,能成功地建一個模型,有一個領域資料不多,但是和前面那個領域是關聯的,就可以把那個模型給遷移過來。

  2. 個性化的問題。比如我們每個人都希望自己的手機能夠記住一些習慣,這樣不用每次都去設定它,我們怎麼才能讓手機記住這一點呢?其實可以通過遷移學習把一個通用的使用者使用手機的模型遷移到個性化的資料上面。我想這種情況以後會越來越多。

RTL的實踐

CSDN:第四正規化的官方介紹是有100多個案例,不知道您參與了多少,強化學習和遷移學習遇到的實際的問題是什麼?

楊強:我不能一一地說,但有一些關鍵的案例我參與了,這裡面用了很多不同的機器學習演算法,深度學習和強化學習只是其中的一部分。我要說的一點是,我們在公司建立的初期用得比較多的就是大規模邏輯迴歸和深度學習。即使加上深度學習,這個學習模式也有它的缺陷——在很多情況下我們得到的反饋是延遲的,這種延遲反饋是深度學習所不能解決的。我們就引入了強化學習來解決它,是有一種自我學習的過程,類似AlphaGo自我對弈,不斷地提高。遷移學習,比方說我們在一個金融領域已經建立了一個很好的模型,但我們遇到了一個新的領域怎麼辦呢?解決所謂的冷啟動問題就是利用遷移學習,當資料收集得足夠多了以後,我們再改用深度學習。

強化學習

CSDN:強化學習的應用應該關注哪些方面呢?

楊強:強化學習的應用其實很廣,最開始應用是在機器人上的應用,比方說你告訴Google AlphaGo到冰箱裡給我拿一瓶牛奶過來,它就不會——路徑的程式設計和怎麼樣開啟冰箱都需要人寫到程式裡。怎麼才能學會呢?這就需要強化學習來做,你讓它試很多次,有時候拿到有時候沒有拿到,通過例子,可以讓強化學習的方法學習優化的路徑。所以一開始強化學習是用在機器人的路徑規劃和任務完成上。但我們最近就發現,強化學習的應用面特別廣,可以用在很多反饋上,但這個反饋不一定是馬上可以得到的,比如醫療領域,對藥品和醫療方案的反饋,就是一個很好的例子。

CSDN:我們用到了Q Learning?

楊強:用到了。但現在比較流行的做法是Deep Q Learning。

CSDN:關於擴張和探索平衡您有什麼見解?

楊強:擴張和探索這個平衡一直是強化學習裡面的一個大難題,現在沒有特別好的通用做法,應該在不同的領域有不同的思路,在圍棋領域尤其明顯,比方說樹搜尋的寬度和深度之間就是一個平衡,但這個平衡AlphaGo做得很好。所以可能在機器人的領域,也需要引入這樣的一個平衡點,這個平衡點也是需要去學習的。

遷移學習

CSDN:目前遷移能做到從金融領域遷移到其他領域麼?

楊強:跨領域是比較難的,一般是比領域裡不同的業務之間做遷移,跨領域在學術界有做的,比方說網路搜尋可以遷移到推薦,圖象識別可以遷移到文字識別,這些在學術界都有不錯的工作,但是真的把它應用到工業界,還是拭目以待。

CSDN:難點在哪裡?

楊強:跨領域的時候,我們需要另外的一種資料來幫助我們,這種資料就是銜接兩個領域之間的橋樑資料。這種資料往往在工業界中是隱式的,存在人的腦袋裡而沒有被機器記錄下來。所以我說人工智慧的發展還在很初級的階段,因為我們的資料沒有連成片而是一個個孤島,到了我們能連成片的階段,有新的成果出來,會是一加一大於二的結果。

CSDN:在每個行業都有一定的成熟的應用之後才能真正用起來?

楊強:對,這個是要有耐心和足夠的積累才可以發現不同領域之間的關聯。以醫療企業為例,在基因檢測領域已經有了很多的資料,體驗有了很多的資料,但畢竟基因檢測和體檢是兩個不同的領域,所以它們之間的關聯很少,但當我們有了使用者的行為資料,對使用者有長期的跟蹤,就可以把這兩個資料關聯起來。

CSDN:除此之外遷移學習還需要關注哪些問題?

楊強:有偏資料的處理。舉一個例子,比方說我們知道在室外有GPS,室內沒有,怎麼辦呢?我們要定位一個很大的商場,現在有一個辦法是用Wifi來定位,拿一個手機APP收集很多的訊號資料用來訓練,但這個資料很容易偏——資料收集的時候和下一個分佈是不一樣的,我們是不是要重新地收集一遍?那樣太麻煩了,不可能每個小時收集一遍室內的資料,所以我們的做法是收集一遍,過後用遷移學習把偏差給做掉,利用點到點的距離,利用校正的方法,在遷移學習裡有一個演算法也是我們發明的,叫做加權法,就是對過去的資料加權,使得過去資料和現在資料比較近的那些資料的權重比較大,比較遠的資料的權重逐漸變小,在迭代多次以後,剩下的資料就是跟現在的資料類似的資料了,這種做法我們覺得行之有效。現在我們在室內定位的領域做了很多的實踐。同時我要說明,這也是一種學術的做法,因為室內定位還不是到工業的水平,我們也在用機器學習做各種嘗試。

先知的實踐

CSDN:除了採用的學習方法,先知的定位,跟IBM、谷歌、微軟的一些雲服務或者是一些API有什麼本質的區別呢?

楊強:首先先知是在金融領域誕生的,對金融領域是特別適用的,金融領域的幾個特點是通用的雲平臺所不能提供的。首先是變數特別多、問題特別複雜,其次是以流的形式輸入的,流的量也特別多,另外有很多噪音,並不是所有的資料都跟它有反饋在一起。當然,通用型的雲平臺也很有必要,用來做一些通用的處理。

CSDN:金融人工智慧的兩個常見場景,是風控和精準營銷,能不能介紹其他的場景?

楊強:風控和營銷是現在第四正規化比較成功的場景,已經有很重要的客戶來買單了,這個本身就不容易,因為在金融領域對這些IT公司的要求是比較高的。我覺得再往下應該還有一些機會點:一個機會點就是投資顧問理財產品,怎麼樣能夠讓公司在第一線而不是在後臺能夠為投資人或者是理財人提供建議、提供顧問,這可能是一個比較重要的點;第二個點可能是文字的挖掘,公司的財報,社會網路的輿情都會對整個市場有影響,那麼投資市場是怎樣受到這些報導和新聞的影響的?這個規律是可以通過自然語言學習來得到的。

CSDN:先知平臺關注應用開發和演算法開發,能介紹一下您能解決演算法開發的哪些問題麼?

楊強:我們有幾個重要的工作。

  1. 如何能夠建立一個演算法庫和演算法圖書館來幫助資料底層的清洗問題。實際應用中,資料和資料之間有很多的孤島,孤島之間的連線很難,因為有很多資料是缺失的。另外還會有很多錯誤資料,如何能夠把資料改進和連線,這些都是資料清洗的一個範疇,所以對應這些問題就需要建立很多的演算法庫。

  2. 建立了演算法庫以後要把它歸一到機器學習演算法所需要的輸入格式,即資料轉換,這也是一個髒活、累活,很多演算法公司不屑去做。在實際應用中我們發現這些活其實佔了整個流程的80%,所以某種程度上重要的是如何能讓演算法更快更有效更及時,並且能夠線上地對到來的資料進行分析,建立模型(建模是第三個層次,第四個層次就是強化學習的層次),能夠讓系統自學習而不是通過人來驅動,能通過它的錯誤和做對的地方,能夠對它整個的流程進行補充、修正,是從下到上的四個階段。

CSDN:資料免清洗是怎麼做到的?

楊強:系統有很多清洗的模組,清洗的動作一開始是由人通過一些工具來操縱這些模組,但當這種例子多了以後,我們就可以把這些例子作為機器學習的一個輸入,學會一個模型,再由模型模仿人來做。

CSDN:這是一個通用的模型還是需要跟具體的業務做結合?

楊強:當然需要跟具體的業務做結合,因為不同的業務對資料質量的定義是不一樣的,有些認為這些資料裡面確實有很多需要清洗,有些應用就覺得不多。

CSDN:具體業務的資料上資料能支援輸入需求麼?

楊強:在成功的案例上,資料從量和質兩方面都沒問題。但我們要發現裡面有很多地方需要人的聰明才智,也就是說,資料科學家的作用也是不可或缺的,怎麼能讓領域科學家把自己的經驗轉化成程式設計的動作。舉一個例子,你要用深度學習模型會產生很多的特徵,這些特徵來自哪部分原始資料,什麼樣的特徵才能解決業務的問題,就需要人的直覺和聰明才智,需要資料科學家和領域科學家的溝通。

解決人才的難題

CSDN:您強調了資料科學家的作用。機器學習領域目前有很多公開的論文,和開源的演算法、開源的庫/框架,我們的人才為什麼還是稀缺的?

楊強:這就是剛才說的髒活、累活大家都不願意去做,因為發表文章和看法是很光榮的事,所以大家都集中做那些事情。我對業界的呼籲,也是希望大家能夠把身段放下來,做一些基本資料的處理,把重點放在底層。這也是為什麼第四正規化真的是在做一些最基本的工作,而不是從第一天開始就急著做一些很上鏡的事情。

小結

楊強認為,遷移學習應用的成熟是一個循序漸進的過程,預計RTL在今後幾年的應用將會更加成熟。

事實上,強化學習和遷移學習已經越來越受歡迎。中國工程院院士、中國人工智慧學會理事長李德毅對“駕駛腦”的研究,就強調了反饋機制,除了將CNN用於形式化,採用強化學習的理念使駕駛腦越來越聰明也是一個特色。微軟人工智慧首席科學家和深度學習技術中心研究經理鄧力也在他的工作中使用深度強化學習,以提升學習效率。而在微軟研究院首席研究員俞棟與鄧力合著的《解析深度學習:語音識別實踐》一書中,多工和遷移學習也佔據了很大的篇幅。這表明,在深度學習最擅長的領域,強化學習和遷移學習依然有重要意義,深度學習也需要與這些演算法結合使用。不過,楊強表示,之所以是RTL而不是DRTL,是因為並不是所有的應用都適用深度學習。

題外話

除了人工智慧落地,楊強的另外一個心願,就是提升華人研究者在國際人工智慧領域的影響力。在由中國人工智慧學會(CAAI)發起並主辦、中科院自動化研究所與CSDN共同承辦,將於8月26-27日舉行的第二屆中國人工智慧大會(CCAI 2016),楊強作為大會程式委員會共同主席,邀請到了國際人工智慧促進會 (AAAI)主席、美國亞利桑那大學教授Rao Kambhapati來做主題報告,以強化國際交流。Rao Kambhapati的議題是“Challenges in Planning for Human-Robot Cohabitation”,大會上還會有更多大牛最新議程曝光,感興趣的讀者請儘快報名

相關文章