以下為採訪實錄摘要:
Alex:大家好,我是Alex Ren,是TalentSeer的創始人,也是BoomingStar Ventures的管理合夥人。Robin.ly平臺設定的初衷是為提高廣大研究人員和工程師對AI,對Leadership以及entrepreneurship的理解。今天有幸邀請到京東AI研究院的常務副院長,也是深度學習語言語音研究所的主任,何曉冬博士。何博士曾任微軟雷德蒙研究院主任研究員,並且擔任華盛頓大學兼職教授和博士生導師。在深度學習,自然語言處理,語音識別,計算機視覺等很多領域,建樹頗多。尤其對於AI,leadership以及AI落地很有心得,何博士會在這些方面進行分享。
Alex:何博士,你是今年年初加入京東?
何曉冬: 對,我在今年三月份正式加入京東。
Alex: 您讀博士時主要研究語音識別,後涉獵了深度學習,CaptionBot,再到Drawing bot,AttnGan,一直到最近在做的情感客服類工作,能否介紹下您的研究興趣?一路走來,AI從傳統方法到深度學習,您的研究路徑是什麼?
何曉冬: 我做博士的時候是做語音識別。那個時候一般不談自己做AI,當然語音識別本身是AI的一個核心問題。在清華畢業以後,去中國科學院讀碩士研究生的時候,我開始做語音識別。那時候還是用一些統計模型方法,比如像馬爾可夫模型,高斯模型。到美國以後,讀博士時就繼續了這個方向,用統計方向來做語音識別。語音識別其實是一個很多年的核心問題,大家都在推進展。博士畢業後,我加入微軟,進入微軟研究院。我也是從語音識別開始做起,希望語音識別能產生一些產業上的幫助,創造價值。語音試別以後,很自然地希望理解它。因為語音識別只是把聲學訊號變成一連串的文字,但其實計算機並沒有真正理解這個話的意思,所以為了理解這個話的意思,我們自然要進入NLP,自然語言處理,包括語言理解。我在微軟研究院時候,最開始從機器翻譯入手,機器翻譯就是一個很核心的NLP問題。舉個例子,把中文翻成英文,看似很簡單,但是一代又一代科學家做了很多年。
Alex: 其實Geoffrey Hinton關於深度學習的研究,最早的應用主要在自然語言處理方面,而且也是在微軟研究院最先完成的,對吧?
何曉冬: 這也是個很有趣的故事。可能現在很多人覺得影像識別很重要,但其實深度學習最開始在核心AI技術上的突破是從大規模的語音識別突破開始的。2008年的時候,我算是第一次認識Hinton。那年鄧力和我,我們是同事,在NIPS會上舉辦了一個叫做“Speech and Language: Learning-BasedMethods and Systems”的workshop。我們邀請了Hinton介紹他最新的工作,包括深度學習。2009年NIPS,鄧力,俞棟,Hinton又舉辦了一個workshop。再後來微軟邀請了Hinton去訪問。同時開始招收實習生,把專案做起來。大概在2010年左右,看到了深度學習在大規模的語音識別上產生了突破性的進展。
Alex:當時的很多工作還是比較前沿性的研究?後來開始大量應用是2012年嗎?
何曉冬: 2010年以後,我們在微軟內部看到,深度學習已經在語音識別上取得了很多進展,認為這是一個很有前景的方向。也扭轉整個業界對深度學習,特別是對神經網路的看法。在此之前大家都並不認為神經網路是一個很吃香的方向。但是由於微軟及業界做出了成果,大家開始轉變了觀念。從那時候開始,在影像,在自然語言處理方面都有了很多進展。2012年開始,業內以很快的速度實現了很多突破。
Alex: 能否介紹下CaptionBot?
何曉冬: 因為我一直在做語言,語音這一塊,包括像2012年開始,與Yoshua Bengio 合作,開始做自然語言理解,Spoken LanguageUnderstanding. 後來我們還提出了DSSM模型,也就是深度結構語意模型。然後我們發現可以go beyond the language, 抓住深度學習的契機,把不管是語音語言,還是影像,都可在同一個語義空間用feature vector來表示,叫作embedding feature vector。這樣就使得語言和影像這種不搭界的兩個問題,可以統一在同一個embedding的空間裡,一個語意空間裡。再進一步擴充套件,如果能把影像和文字,按照它們本身的意義和內容,放到同一個空間裡去,就可以實現影像和文字的互相轉化。所以後來我們在2013年底,提出了這個proposal到微軟的一個strategic intern program,開始準備做這個方向。但這不僅是我一個人的想法,也是因為資料差不多積累到合適的狀態。那時MSR剛好sponsor了一個名為MS COCO的dataset,對每一個圖片都有很多自然語言描述,使得我們的研究有了資料基礎。同時還有一些其他的進展,包括端到端的機器學習,包括sequential model,這些深度學習模型都出現了。正好是一個合適的時間點。所以我就把我從語言理解專業又擴到了多模態的領域,具體的說是image captioning領域,並跟同事們一起打造了CaptionBot。
Alex: 後來你又做了一些研究,比如DrawingBot,AttnGAN,能介紹一下什麼是AttnGAN嗎?
何曉冬: GAN現在可能大家現在比較熟,就是GenerativeAdversarial Networks, 對抗性生成網路,被應用於生成影像。我們之所以做AttnGAN,是想做CaptionBot的反向,做一個closed loop。CaptionBot是從圖片生成它的文字描述。AttnGAN,是GAN的一個擴充套件,是從文字描述生成一個對應圖片。AttnGAN試圖引入一種像人一樣的attention的機制,使得我們在畫圖時,在畫每一個區域性的細節時,能對應到文字裡的每一個細節。AttnGAN是專門針對區域性對區域性的語意對照做的一個模型,讓畫的圖更加精細。基於AttnGAN演算法我們開發的一個智慧繪畫機器人就叫DrawingBot。
Alex:舉個例子,如果想畫我們Logo的這隻鳥,應該如何描述?
何曉冬博士講述如何DrawingBot原理
何曉冬: 那你可對DrawingBot說,我想畫一隻鳥,她的脖子是橘色的,肚子是白色的,羽翼是灰色的。DrawingBot 就會畫這麼一隻鳥。
Alex:目前已經有人開始利用技術進行創作了嗎?
何曉冬: 現在我們還在討論階段。其實在我來矽谷之前,清華美院舉辦了叫 Art and Design 3.0Forum的論壇,我在論壇上做了一個小發言,就是展示了一些類似的例子。什麼是想象力?我們以前認為只有人才有想象力,機器只有記憶。其實在某些層面上,機器是可以看到很多不同的角度,畫出一隻全新的鳥。這個鳥可能在這個世界上從來沒有存在過,有不同的顏色。甚至我們有一個bug把一隻鳥的嘴巴都畫成藍色,這肯定是不存在的。但這也可以看成機器的想象力,就像是小孩子一樣,可以想象出一些世界上沒出過的東西。本質上生成就是在一個空間內按某種分佈取樣,想象力可看成在一個合理區間的邊緣取樣。
Alex: 目前京東把AI的技術運用到線上線下零售領域。這方面的側重點是什麼?
何曉冬: 京東有一個很全的鏈條,包括廠家採購,到網站做display,交易,到售後服務,做收付款,包括送貨,及可能需要的退貨處理。京東的鏈條非常長。在每個環節,AI都可以有很重要的應用,或者促進。舉一個簡單的例子,比如售後服務。京東有一個智慧客服機器人。如果使用者買東西有些問題,可以透過聊天來問這個機器人,為什麼東西還沒到,為什麼東西損壞了。chatbot 就是一個經典的AI應用。研究院成立以來,進一步促進了AI的應用,改進了智慧客服。其中之一就是在智慧客服加入了情感。以前我們的chatbot就事論事的回答使用者的問題。後來我們發現,當客戶來聯絡客服的時候,往往帶有一些情緒,比如,不高興,生氣或者焦急。所以我們最近的一個工作就是,透過AI把情感智慧加入到chatbot中,能夠檢測到使用者的情緒,同時交談時,也會相應的生成一些安撫性的語言,使使用者感受到被關心被關注,更加人性化,溫暖的互動使得使用者的滿意度提高了很多
Alex: 你本身完成了一個transition:從一個很有成就的AI研究人員,到領導京東的AI research。更多涉及AI商業化。你個人在從researcher 到 leader這個transition過程,遇到了什麼挑戰?什麼事情促使你做了這個轉變?
何曉冬: 轉變可能有兩個點。第一,從理論研究到實踐。我以前在微軟研究院,做研究更多一些。但是京東有這個機會,把AI 進行產業上的應用。比如,剛舉的客服的例子。一方面是機會,一方面是挑戰。怎麼樣讓AI確實在產業層面產生大規模的impact,更加有影響力。這是挑戰也是轉變。意味著思考問題的出發點要進行調整。第二,如何進行多重協作。工程上有很多involvement,怎樣組織多個工程團隊共同工作,從而真正做到一個可大規模推廣,大規模應用的程度,而不僅僅侷限在實驗室裡。
Alex: 可以分享下帶領團隊方面的心得麼?
何曉冬: 談不上太多心得。就是一些個人小小的分享。比如說一個團隊做事情,很多時候要給大家講得很清楚,給大家一個統一的vision。這個事情的意義在什麼地方,每個人為什麼做這個事情,要讓大家感到驕傲。明確purpose 同時feel proud of it. 讓每個成員知道你做的這個事情將會很有影響力的。不是無足輕重,而是說目前你所從事的工作,在產業上,在本質上,在thought, leadership上都很領先的。像我們的情感客服是業界領先的大規模商用。小規模的可能有,但如此大規模的商用,京東應該是領先的。認識到這一點以後,每個工程師,每個團隊成員,就可以更統一起來。
Alex:你覺得中國AI研究的優勢在哪裡呢?
何曉冬: 中國的優勢在於可以很快的放大思想的影響力。中國規模非常大,以京東為例,京東能夠服務超過3億的消費者,他們每天都會在京東這個平臺上進行大量的活動,所以演算法和模型上的創新,可以很快被放大到整個平臺上去。同時,另一方面,使用者和演算法模型之間的互動比如智慧客服,會產生大量資料。這些資料可以刺激新的演算法。這個互動迴圈會非常快,這是在中國做AI的一個優勢。
Alex:能說說3-5年內,你的個人目標是什麼嗎?
何曉冬: 我個人希望看看AI能不能在典型的大規模產業化的基礎上,落地併產生影響。大家知道AI經過幾次寒冬,也經過幾次高潮。我個人對這次的高潮更加樂觀。因為AI要真正要落地才能對整個社會產生影響。這也是為什麼像京東有那麼長的鏈條,有那麼多資料,是一個很好的落地機會。隨後三到五年,我希望把研究方面或者技術方面的一些先進的技術和模型,真正的帶到產業上進行落地。一方面驗證或者促進研究,另一方面是希望提高這個產業本身,並引領產業的一些變革。
Alex:深度學習快速發展了一段時間,已經出現了很多framework和工具之類的,一些很多軟體工程師,或者演算法工程師做這些方面的應用技術也更加容易,甚至一些高中生也可以調整引數。既然如此,我們是否還需要昂貴的AI researcher呢?
何曉冬: 會調引數的高中生相當寶貴,如果有,立馬把她找過來做我的實習生!從研究方面,我們對研究員提出的要求更高了,不是說把模組,或者神經層,往那一疊,就變成了一個新模型。要在演算法上真正有創新。希望研究員們的創新可以帶來更多深遠的影響。
Alex: 所以現在的工作更多的轉向了engineering,理解市場,理解需求?
何曉冬: 對。我現在越來越關注這個方向。同時研究還是希望能繼續保持,包括publication和參加學術會議,一方面知道最新的思想發展,另一方面也花一些精力看怎麼樣有可能在產業上產生影響,在實際過程中產生影響。
Alex: 根據你的經歷,你看到深度學習技術本身,或者這個research,未來的研究方向有什麼樣的變化?
何曉冬: 其實深度學習帶來很多AI上的進步,但我們還有很多沒有理解的地方。舉個例子說,我們從感知,試別語音和影像,進化到認知,做閱讀理解。實際上我們沒有真正理解,人是怎麼理解文字的。這可能還需要從認知(cognition)的角度來看,才能更深的理解這個問題。另一方面,我們也不知道人的大腦到底是怎麼工作的,我們說神經網路,神經這個詞我們是從大腦借過來的,但是並不知道大腦真正怎麼工作。
Alex:所以我們叫Artificial Intelligence嘛。
何曉冬: 所以那麼現在可能是個機會,我們能不能真正理解大腦是的工作機制。如果能真正理解,會促進我們技術的提高。
Alex:其實更多的角度是從腦科學,或者cognitive science去借鑑一些方法?
何曉冬: 某些研究領域是這樣。但是產業方面,我倒認為,隨後看得見的10年之內,深度學習是一個主流的能夠推動AI前進的核心方向。這個問題很簡單,並不是說深度學習本身有什麼magic,而是因為整個過去十年和隨後十年,一個很大的趨勢是計算力(computation power)在指數級別增長。資料,特別是無結構的文字,影像,也在指數級增長。從這兩點,能take這兩個benefit的模型,演算法和技術,也會有一個指數級增長的機會。所以深度學習就正好有整個特性,有足夠大的capacity,能夠用到那麼大的計算力量,同時又能夠把這麼多資料消化掉。從一個工程化,或者應用的角度看,這是深度學習的一個優勢。從研究看,確實要懂,要理解是怎麼回事,理解腦是怎麼工作的,那是另外一個研究領域。
Alex: 感謝何博士對AI,深度學習整體的介紹,從introduce到語音識別,自然語言處理,到現在做的在零售領域應用AI,做到情感互動機器人互動等各個領域的介紹。也感謝你分享了個人職業生涯上,從researcher到leader的transition,包括他所做工作的不同transition。希望你在這方面能做出更多的成果,希望京東在AI落地上取得更多成果。
何曉冬: 非常感謝給我機會可以和大家進行交流。