IEEE Fellow何曉冬:讓客服不再冰冷

Robinly發表於2018-12-13

Robin.ly 是一個全新的影片內容平臺,旨在為廣大工程師和研究人員提高對商業,創業,投資,領導力的理解。本期是Robin.ly創始人Alex Ren採訪京東AI研究院常務副院長,前微軟雷德蒙研究院主任研究員、新當選IEEE Fellow 何曉冬博士。

以下為採訪實錄摘要:

Alex:大家好,我是Alex Ren,是TalentSeer的創始人,也是BoomingStar Ventures的管理合夥人。Robin.ly平臺設定的初衷是為提高廣大研究人員和工程師對AI,對Leadership以及entrepreneurship的理解。今天有幸邀請到京東AI研究院的常務副院長,也是深度學習語言語音研究所的主任,何曉冬博士。何博士曾任微軟雷德蒙研究院主任研究員,並且擔任華盛頓大學兼職教授和博士生導師。在深度學習自然語言處理語音識別計算機視覺等很多領域,建樹頗多。尤其對於AI,leadership以及AI落地很有心得,何博士會在這些方面進行分享。

Alex:何博士,你是今年年初加入京東

何曉冬: 對,我在今年三月份正式加入京東。

Alex: 您讀博士時主要研究語音識別,後涉獵了深度學習CaptionBot,再到Drawing botAttnGan,一直到最近在做的情感客服類工作,能否介紹下您的研究興趣?一路走來,AI從傳統方法到深度學習,您的研究路徑是什麼

何曉冬: 我做博士的時候是做語音識別。那個時候一般不談自己做AI,當然語音識別本身是AI的一個核心問題。在清華畢業以後,去中國科學院讀碩士研究生的時候,我開始做語音識別。那時候還是用一些統計模型方法,比如像馬爾可夫模型,高斯模型。到美國以後,讀博士時就繼續了這個方向,用統計方向來做語音識別語音識別其實是一個很多年的核心問題,大家都在推進展。博士畢業後,我加入微軟,進入微軟研究院。我也是從語音識別開始做起,希望語音識別能產生一些產業上的幫助,創造價值。語音試別以後,很自然地希望理解它。因為語音識別只是把聲學訊號變成一連串的文字,但其實計算機並沒有真正理解這個話的意思,所以為了理解這個話的意思,我們自然要進入NLP,自然語言處理,包括語言理解。我在微軟研究院時候,最開始從機器翻譯入手,機器翻譯就是一個很核心的NLP問題。舉個例子,把中文翻成英文,看似很簡單,但是一代又一代科學家做了很多年。

Alex: 其實Geoffrey Hinton關於深度學習的研究,最早的應用主要在自然語言處理方面,而且也是在微軟研究院最先完成的,對吧

何曉冬: 這也是個很有趣的故事。可能現在很多人覺得影像識別很重要,但其實深度學習最開始在核心AI技術上的突破是從大規模的語音識別突破開始的。2008年的時候,我算是第一次認識Hinton。那年鄧力和我,我們是同事,在NIPS會上舉辦了一個叫做“Speech and Language: Learning-BasedMethods and Systems”的workshop。我們邀請了Hinton介紹他最新的工作,包括深度學習。2009年NIPS,鄧力俞棟,Hinton又舉辦了一個workshop。再後來微軟邀請了Hinton去訪問。同時開始招收實習生,把專案做起來。大概在2010年左右,看到了深度學習在大規模的語音識別上產生了突破性的進展。

Alex:當時的很多工作還是比較前沿性的研究?後來開始大量應用是2012年嗎

何曉冬: 2010年以後,我們在微軟內部看到,深度學習已經在語音識別上取得了很多進展,認為這是一個很有前景的方向。也扭轉整個業界對深度學習,特別是對神經網路的看法。在此之前大家都並不認為神經網路是一個很吃香的方向。但是由於微軟及業界做出了成果,大家開始轉變了觀念。從那時候開始,在影像,在自然語言處理方面都有了很多進展。2012年開始,業內以很快的速度實現了很多突破。

Alex: 能否介紹下CaptionBot

何曉冬: 因為我一直在做語言,語音這一塊,包括像2012年開始,與Yoshua Bengio 合作,開始做自然語言理解,Spoken LanguageUnderstanding. 後來我們還提出了DSSM模型,也就是深度結構語意模型。然後我們發現可以go beyond the language, 抓住深度學習的契機,把不管是語音語言,還是影像,都可在同一個語義空間用feature vector來表示,叫作embedding feature vector。這樣就使得語言和影像這種不搭界的兩個問題,可以統一在同一個embedding的空間裡,一個語意空間裡。再進一步擴充套件,如果能把影像和文字,按照它們本身的意義和內容,放到同一個空間裡去,就可以實現影像和文字的互相轉化。所以後來我們在2013年底,提出了這個proposal到微軟的一個strategic intern program,開始準備做這個方向。但這不僅是我一個人的想法,也是因為資料差不多積累到合適的狀態。那時MSR剛好sponsor了一個名為MS COCO的dataset,對每一個圖片都有很多自然語言描述,使得我們的研究有了資料基礎。同時還有一些其他的進展,包括端到端的機器學習,包括sequential model,這些深度學習模型都出現了。正好是一個合適的時間點。所以我就把我從語言理解專業又擴到了多模態的領域,具體的說是image captioning領域,並跟同事們一起打造了CaptionBot。

Alex: 後來你又做了一些研究,比如DrawingBotAttnGAN,能介紹一下什麼是AttnGAN

何曉冬: GAN現在可能大家現在比較熟,就是GenerativeAdversarial Networks, 對抗性生成網路,被應用於生成影像。我們之所以做AttnGAN,是想做CaptionBot的反向,做一個closed loop。CaptionBot是從圖片生成它的文字描述。AttnGAN,是GAN的一個擴充套件,是從文字描述生成一個對應圖片。AttnGAN試圖引入一種像人一樣的attention的機制,使得我們在畫圖時,在畫每一個區域性的細節時,能對應到文字裡的每一個細節。AttnGAN是專門針對區域性對區域性的語意對照做的一個模型,讓畫的圖更加精細。基於AttnGAN演算法我們開發的一個智慧繪畫機器人就叫DrawingBot。

Alex:舉個例子,如果想畫我們Logo的這隻鳥,應該如何描述

IEEE Fellow何曉冬:讓客服不再冰冷

何曉冬博士講述如何DrawingBot原理

何曉冬: 那你可對DrawingBot說,我想畫一隻鳥,她的脖子是橘色的,肚子是白色的,羽翼是灰色的。DrawingBot 就會畫這麼一隻鳥。

Alex:目前已經有人開始利用技術進行創作了嗎

何曉冬: 現在我們還在討論階段。其實在我來矽谷之前,清華美院舉辦了叫 Art and Design 3.0Forum的論壇,我在論壇上做了一個小發言,就是展示了一些類似的例子。什麼是想象力?我們以前認為只有人才有想象力,機器只有記憶。其實在某些層面上,機器是可以看到很多不同的角度,畫出一隻全新的鳥。這個鳥可能在這個世界上從來沒有存在過,有不同的顏色。甚至我們有一個bug把一隻鳥的嘴巴都畫成藍色,這肯定是不存在的。但這也可以看成機器的想象力,就像是小孩子一樣,可以想象出一些世界上沒出過的東西。本質上生成就是在一個空間內按某種分佈取樣,想象力可看成在一個合理區間的邊緣取樣。

Alex: 目前京東把AI的技術運用到線上線下零售領域。這方面的側重點是什麼

何曉冬: 京東有一個很全的鏈條,包括廠家採購,到網站做display,交易,到售後服務,做收付款,包括送貨,及可能需要的退貨處理。京東的鏈條非常長。在每個環節,AI都可以有很重要的應用,或者促進。舉一個簡單的例子,比如售後服務。京東有一個智慧客服機器人。如果使用者買東西有些問題,可以透過聊天來問這個機器人,為什麼東西還沒到,為什麼東西損壞了。chatbot 就是一個經典的AI應用。研究院成立以來,進一步促進了AI的應用,改進了智慧客服。其中之一就是在智慧客服加入了情感。以前我們的chatbot就事論事的回答使用者的問題。後來我們發現,當客戶來聯絡客服的時候,往往帶有一些情緒,比如,不高興,生氣或者焦急。所以我們最近的一個工作就是,透過AI把情感智慧加入到chatbot中,能夠檢測到使用者的情緒,同時交談時,也會相應的生成一些安撫性的語言,使使用者感受到被關心被關注,更加人性化,溫暖的互動使得使用者的滿意度提高了很多

Alex: 你本身完成了一個transition:從一個很有成就的AI研究人員,到領導京東的AI research。更多涉及AI商業化。你個人在從researcher leader這個transition過程,遇到了什麼挑戰?什麼事情促使你做了這個轉變?

何曉冬: 轉變可能有兩個點。第一,從理論研究到實踐。我以前在微軟研究院,做研究更多一些。但是京東有這個機會,把AI 進行產業上的應用。比如,剛舉的客服的例子。一方面是機會,一方面是挑戰。怎麼樣讓AI確實在產業層面產生大規模的impact,更加有影響力。這是挑戰也是轉變。意味著思考問題的出發點要進行調整。第二,如何進行多重協作。工程上有很多involvement,怎樣組織多個工程團隊共同工作,從而真正做到一個可大規模推廣,大規模應用的程度,而不僅僅侷限在實驗室裡。

Alex: 可以分享下帶領團隊方面的心得麼

何曉冬: 談不上太多心得。就是一些個人小小的分享。比如說一個團隊做事情,很多時候要給大家講得很清楚,給大家一個統一的vision。這個事情的意義在什麼地方,每個人為什麼做這個事情,要讓大家感到驕傲。明確purpose 同時feel proud of it. 讓每個成員知道你做的這個事情將會很有影響力的。不是無足輕重,而是說目前你所從事的工作,在產業上,在本質上,在thought, leadership上都很領先的。像我們的情感客服是業界領先的大規模商用。小規模的可能有,但如此大規模的商用,京東應該是領先的。認識到這一點以後,每個工程師,每個團隊成員,就可以更統一起來。

Alex:你覺得中國AI研究的優勢在哪裡呢?

何曉冬: 中國的優勢在於可以很快的放大思想的影響力。中國規模非常大,以京東為例,京東能夠服務超過3億的消費者,他們每天都會在京東這個平臺上進行大量的活動,所以演算法和模型上的創新,可以很快被放大到整個平臺上去。同時,另一方面,使用者和演算法模型之間的互動比如智慧客服,會產生大量資料。這些資料可以刺激新的演算法。這個互動迴圈會非常快,這是在中國做AI的一個優勢。

Alex:能說說3-5年內,你的個人目標是什麼嗎

何曉冬: 我個人希望看看AI能不能在典型的大規模產業化的基礎上,落地併產生影響。大家知道AI經過幾次寒冬,也經過幾次高潮。我個人對這次的高潮更加樂觀。因為AI要真正要落地才能對整個社會產生影響。這也是為什麼像京東有那麼長的鏈條,有那麼多資料,是一個很好的落地機會。隨後三到五年,我希望把研究方面或者技術方面的一些先進的技術和模型,真正的帶到產業上進行落地。一方面驗證或者促進研究,另一方面是希望提高這個產業本身,並引領產業的一些變革。

Alex:深度學習快速發展了一段時間,已經出現了很多framework和工具之類的,一些很多軟體工程師,或者演算法工程師做這些方面的應用技術也更加容易,甚至一些高中生也可以調整引數。既然如此,我們是否還需要昂貴的AI researcher

何曉冬: 會調引數的高中生相當寶貴,如果有,立馬把她找過來做我的實習生!從研究方面,我們對研究員提出的要求更高了,不是說把模組,或者神經層,往那一疊,就變成了一個新模型。要在演算法上真正有創新。希望研究員們的創新可以帶來更多深遠的影響。

Alex: 所以現在的工作更多的轉向了engineering,理解市場,理解需求

何曉冬: 對。我現在越來越關注這個方向。同時研究還是希望能繼續保持,包括publication和參加學術會議,一方面知道最新的思想發展,另一方面也花一些精力看怎麼樣有可能在產業上產生影響,在實際過程中產生影響。

Alex: 根據你的經歷,你看到深度學習技術本身,或者這個research,未來的研究方向有什麼樣的變化

何曉冬: 其實深度學習帶來很多AI上的進步,但我們還有很多沒有理解的地方。舉個例子說,我們從感知,試別語音和影像,進化到認知,做閱讀理解。實際上我們沒有真正理解,人是怎麼理解文字的。這可能還需要從認知(cognition)的角度來看,才能更深的理解這個問題。另一方面,我們也不知道人的大腦到底是怎麼工作的,我們說神經網路,神經這個詞我們是從大腦借過來的,但是並不知道大腦真正怎麼工作。

Alex:所以我們叫Artificial Intelligence

何曉冬: 所以那麼現在可能是個機會,我們能不能真正理解大腦是的工作機制。如果能真正理解,會促進我們技術的提高。

Alex:其實更多的角度是從腦科學,或者cognitive science去借鑑一些方法

何曉冬: 某些研究領域是這樣。但是產業方面,我倒認為,隨後看得見的10年之內,深度學習是一個主流的能夠推動AI前進的核心方向。這個問題很簡單,並不是說深度學習本身有什麼magic,而是因為整個過去十年和隨後十年,一個很大的趨勢是計算力(computation power)在指數級別增長。資料,特別是無結構的文字,影像,也在指數級增長。從這兩點,能take這兩個benefit的模型,演算法和技術,也會有一個指數級增長的機會。所以深度學習就正好有整個特性,有足夠大的capacity,能夠用到那麼大的計算力量,同時又能夠把這麼多資料消化掉。從一個工程化,或者應用的角度看,這是深度學習的一個優勢。從研究看,確實要懂,要理解是怎麼回事,理解腦是怎麼工作的,那是另外一個研究領域。

Alex: 感謝何博士對AI深度學習整體的介紹,從introduce語音識別自然語言處理,到現在做的在零售領域應用AI,做到情感互動機器人互動等各個領域的介紹。也感謝你分享了個人職業生涯上,從researcherleadertransition,包括他所做工作的不同transition。希望你在這方面能做出更多的成果,希望京東在AI落地上取得更多成果

何曉冬: 非常感謝給我機會可以和大家進行交流。

Robinly
Robinly

Robinly團隊座標矽谷,從創業、領導力和人工智慧三個角度去剖析成功創業者、高科技領導者、人工智慧科學家和知名投資人的職業養成過程和他們對於這些領域的觀點,我們力求追本溯源,為廣大工程師、研究者提供一手的職業學習內容。

http://www.robin.ly
專欄二維碼

相關文章