流利說 AI 劉揚:從教授到「AI 虛擬老師」

Robinly發表於2018-11-27

以下為採訪實錄摘要:

Alex: 大家好,我是Alex,是BoomingStar Ventures的管理合夥人,也是Robin.ly的創始人。Robin.ly是一個影片內容平臺主要目的是為了提高工程師和研究人員對於AI創業以及leadership方面的理解。我們邀請了很多AI方面的科學家,知名創業者,投資人,以及一些業內leader,來分享他們在這些領域的心得。今天的嘉賓是流利說矽谷AI Lab的負責人,劉揚教授,她將分享在自然語言處理以及conversational AI方面的體會。 劉教授在AI和自然語言處理領域有超過20年的經驗,獲清華大學本科和碩士學位,後又就讀於普渡大學並取得博士學位,並在2011年獲得了UT Dallas的終身教授職位。她曾獲得NSF Career Award以及Air Force Young Investigator Award等榮譽,並任Google Visiting Scientist及Facebook Research Scientist等職位。2017年,劉教授加入了流利說,擔任AI Lab負責人——流利說在2018年9月底成功在紐交所上市。劉教授在普渡讀PhD時候的論文是關於語音識別, speech recognition,後在ICSI以及UT Dallas都選擇了自然語言處理方向,考慮到當時深度學習和AI並非熱門領域,能否介紹下您選擇這個方向的初衷?

劉揚:其實我對這個領域的關注,不是從讀博士時候開始而是在清華讀本科的時候就開始了。1996年在做本科畢業論文時的主題就是中文的自動分詞。中文是一個一個的字,並沒有詞的這個概念。但是無論做語音識別還是自然語言理解,都需要以詞作單位,所以當時本科畢業論文做的就是中文自動分詞。當時用的最簡單的方法就是從左到右,找一個在字典中可以匹配出來的最長的詞,或者再加一些統計模型,用一些HMM/隱藏馬爾可夫模型,或其他的一些辦法來完成。當時主要是為了語音識別,因為語音識別需要language model。從1996年開始,到現在我已經做了20年了。當時在中國從本科一直讀到研究生,選擇的餘地有限。比如,考上清華,在電子系,我們班就是做資訊這方面的科學研究,跟模式識別和AI的關係很緊密。當時我所在的組的實驗室主要也是做語音識別。所以從本科畢業論文開始,做分詞也好,做語音識別也好,以後就很自然的繼續做下去。那時候不像現在的本科生,exposed的東西特別多,想想自己對什麼東西有興趣。我們那時候往往是被老師帶上了這麼一個專案,後來也確實覺得是挺有興趣,就堅持下來了。

Alex: 堅持下來的原因是覺得課題本身有意思?

劉揚:是的。因為人的語言每天都在用,有很多有趣的現象。舉兩個例子,比如像我們現在常常用的叫code switching,就是中文和英文夾在一塊兒,現在很多雙語者都有這個問題,無論做語音識別還是做自然語言理解時都需要處理的一個問題。 平常因為在語言中有挺多類似的有趣現象,做這個研究課題就覺得有很多事情可以做。再舉個例子,我的博士論文是做conversational speech,spontaneous speech,人們常常說了一個詞,又回去再改一個詞,或者再重複一個詞,這是一種挺常見的現象,或者有不連貫的這種語句,在語音識別中也是一個挺大的問題,我的 博士論文就研究這個問題。後來也做過處理小孩子的語言現象,或者是有各種語言問題的語言現象,非常有趣。雖然當時這並不是一個熱門方向,但無心插柳,這麼多年堅持下來,這個領域在過去幾年成為了很流行的話題,應該說我的選擇不是特別錯誤:至少見到自己做的東西,或者落地,或者研究領域,都有一個很大的成就。

Alex: 您是什麼時候開始接觸深度學習並且把深度學習應用到NLP上面的?

劉揚:我對深度學習的接觸歷程跟整個領域發展階段大致重合。從2010,2011年開始,Microsoft或者Geoffrey Hinton這些人開始涉獵這一領域。在語音識別中,MSR的語音識別是一個方向。另外還有computer vision那邊也見到了很大的一個成就,那時候我還在學校,有點跟著潮流,看到在其他領域都有挺大的發展,就慢慢地把很多原來用傳統machine learning做的事情換成用深度學習神經網路來做。當時學校裡有一個有趣的現象,學生們因為順著這個研究的潮流,把原來的東西拿過來用深度學習再做一遍。畢業論文答辯的時候,其他的答辯組成員最常問的問題就是:用這個方法做,在科學方面有什麼樣的貢獻,有什麼樣的發現,僅僅是因為神經網路流行所以跟風,還是確實解決了一個實實在在的問題?所以當時很多學生都面臨這樣一個問題,既想從研究方面確實對這個問題有深入的理解,但又想跟上整個大的學術界或者工業界所有人的腳步,想趕上這班車。

Alex: 深度學習很多是drawbox的方法,很難去追究它的成本?

劉揚:對,或者說對這個問題的理解。大家現在都強調這個模型的interpretability,你到底有什麼樣的解釋。即使是Google,比如說search這個問題,要不要用深度學習最後去做這個ranking?系統有時候需要解釋,一個query處理得好或者處理得不好,要如何去修改。

Alex:2015您從學校去Google做了visiting scientist當時是出於什麼樣的考慮想去看一下工業界在發生什麼嗎後來您又去了Facebook以及現在的流利說您的心路歷程是什麼工業界和學術界有什麼區別

劉揚:現在回頭看,好像從學術界到工業界挺自然,很多教授可能也都是走這麼一條路。但當時對我來說主要是一個個人的原因。好多認識我的人都知道,我先生早先在矽谷工作,當時思考這個問題怎麼解決。 最後決定利用sabbatical leave的機會,到矽谷這邊的工業界試試水,所以去Google是挺自然的一個選擇。選擇Google的原因是,他們對學校sabbatical leave有一個非常成熟的process的系統,所以可以正常申請,到Google找一個researcher一塊兒合作一個project。像Apple,Facebook之類的公司,這方面和Google比起來的話,sabbatical leave流程還不是特別成熟 。

Alex: 您當時主要研究的課題是什麼?

劉揚:當時做的還是NLP。最開始是想做跟information extraction比較像的方向,怎麼檢測文章中發生的事情,有哪些重要的人。去了之後有一些變化,也做了一些跟別的方面的理解相關的內容,但大部分依然用深度學習解決NLP的問題。工業界的research,一方面跟學術界有些像,確實要找一些research的問題,用先進一點的方法去嘗試,即使他們在基礎框架上比學校有很多好處,但另一個大的差別是在對研究問題的評估上要考慮產品的影響力。 因為畢竟是在產業界,不像在學校在實驗室中就可以找一個研究的問題,有可能會解決世界上一些先進的研究上的問題,當然也有可能沒有任何實際用處。在工業界進行的研究往往是由實際問題引起的研究,或者他們希望現在做的這些東西將來對公司,對產品,或者對其他現實問題起到很大的影響。

Alex:您在Facebook主要負責什麼方面的工作

劉揚:當時去Facebook也考慮了一下究竟應該加入哪個組。 FacebooK研究方面比較紅火的就是FAIR,FacebookAI Research。另一方面是Applied Machine Learning,還有就是Facebook其他的產品組,包括Facebook的ads,NewsFeed,search等。因為在Google做研究的經歷,感覺去Facebook的FAIR聽起來像是挺自然的一個選擇。但當時我認為自己已經在學術界呆了很久,在Google也見過科研,去Facebook繼續做這種純的基礎科研沒有什麼改變,但如果直接進入一個全產品的組變化也有點劇烈。後來找了折中的點就是Applied Machine Learning,把一些大家可以用的深度學習 或者是泛泛的機器學習用到Facebook的產品中。當時看到了很多把各種各樣的machine learning應用到在Facebook的ads ranking,feed ranking等產品中,以這樣的方式實現了AI落地的應用。

Alex: 您進一步加入流利說的時候,是因為本身的教育背景所以選擇了流利說的英語教學這個方向麼?出於哪些考慮?

劉揚:有好幾點原因。一方面,我相當於是做教育出身,雖然教育跟我們現在做的教育不太一樣,但是從情懷講起來這個還是相關的。另外一方面,是因為跟現在這個公司的創始人原本認識,對這個公司和這個行業比較關注。最後就是因為跟自己這麼多年做的語音識別自然語言理解相關,語言學習是這些研究的一個自然的落地方向。很多業內人士都是在考慮如何將AI和機器學習進行具體應用,第一個能想到的就是教語言,學語言,所以這是特別自然的一個應用。

Alex: 有一個產品叫“雅思流利說”,應該也是你們的一個主打的收費產品。像這種國際型的人語標準化水平測試,最大的問題就是如何保證打分的準確性,您覺得你們在這方面有什麼技術優勢?

劉揚:這其實是一個挺複雜的技術問題。 如果大家參加過託福或者雅思考試就知道,口語考試是給一道題,要求應試者講半分鐘或者一分鐘來回答,比如說對動物園有什麼看法,對現在的一些政治問題有什麼樣的看法,一般是有一些agree或者disagree這樣明顯的性質。或者託福的考官要對這個人說的話進行打分。這個過程是用語言/speech回答了問題,如果要對他/她打分,首先要求這個系統能夠做語音識別,我先要知道都講了什麼,所以語言識別是第一步。然後有了語言識別的結果之後,要對學生說的內容進行打分,進行理解。這個裡邊要考慮的就是他/她的詞彙怎麼樣,語法怎麼樣,句與句之間的連貫性怎麼樣,整個篇章/段落的觀點表達得合理不合理。所以整個系統看,從語音識別一直到自然語言處理裡面包括的點就非常多--從詞彙到特別highlevel的段落--篇章都要考慮。就連第一個問題語言識別,也不簡單。不僅有中國人的口音還因為這是一個即興的演講過程。 會涉及到講話時候的改正,比如一個詞說到一半又把這個句子從頭開始說了一遍,這對於語言識別來說都是特別特別難的問題。另外中國人講英語,有各種語法問題,用詞不合適的問題。對於聲學模型,語言模型來說都特別困難。所以第一步語言識別就已經不容易了,識別出來的這些話可能有很多錯誤已經包括在裡面了。第二步再做自然語音處理的時候要看語法錯誤,用詞錯誤,連貫性等,依然是很難的問題。當然,這些所有的問題現在都用機器學習做過,其中一些component是用的深度學習,有一些就是傳統的machine learning。

最後回到系統打分,雅思考試得了5分,6分還是7分,能跟考官打的分之間的correlation應特別高。這需要透過機器學習的一些方法實現——如果機器已經見過若干人的雅思或者託福口語考試分數,我又見過一些考官打的分,就可以學習什麼樣的分能跟人打的分相似。所以也相當於是machine learning。我們現在這個系統歐洲或者雅思的官方很認可,打分確實跟考官基本一致,所以現在“雅思流利說”的產品,有很多人用它去練習,希望花一兩個月的時間把自己的考試成績從5分提到6分,從6分提到7分。

Alex: 目前市場上語言學習的產品較多,很多公司聲稱自己有AI技術,你們在技術上希望怎麼保持優勢?

劉揚: 希望把AI應用到公司產品的各個components上,我們要保持在語音識別技術上最領先的地位, 在NLP各個方面同時要保持領先技術,這只是從純技術這看。要保證公司整個產品都處於領先,除了技術還包括其他,可能比技術佔的比例更大的,比如公司產品內容,整個UI design,要使學生能夠更喜歡這個產品的要素。剛才提到了一個技術優勢,像我剛才說的,識別中國人的語音不是那麼容易,中國人的發音,標準音 “I”,可能被不同的人講出來,有南方口音有北方口音,但都不是英語中所謂的標準音。原來在做傳統的語音識別的時候,有聲學模型,有語言模型,還有一個叫詞典/字典。這個東西要告訴我們這裡有一個詞,它的發音是什麼,這個Robin是要念成r-o-bin這個音嗎?但是對中國人來講,這個音可能念得不是那麼準,我如果想用一個字典來把中國人可能讀的音都表示出來,不是那麼容易的一件事。

深度學習中無論做語音識別還是做NLP,都有一個端到端的學習,End-to-end的體系。這個系統裡 沒有我們剛才說的聲學模型,語言模型,和詞典,基本就是一個系統把所有需要包括的東西都包括其中。我們現在也在做這方面的研究,中國人可能讀這個音會有3種,5種,10種不同的讀音。如果一個End-to-end system能夠自動學習中國人發英語這個詞的發音,它的這個聲學模型依次去建模,就是比較理想的一個狀態。我們前幾天剛剛提交了iCAST的一個論文,同時放在了Arxiv上,表明這個方面的嘗試很成功。現在初步的結果跟傳統的結果差不多。但是因為系統簡化很多,在public的一個English的dataset中,我們的結果基本上是全世界最好的。所以公司在整個AI,從語音到語言,各個方面都還是想保持技術上的領先性 。

Alex: 您認為教育希望實現全面的因材施教,那這裡邊最大的技術難題是什麼?您剛才提到了語音識別,除此之外是不是還有一些資料採集,產品定位,UI/UX,或者說另外一些非技術困難?你們現在最關心的問題或者說最大的難題有哪些?

劉揚:做 “AI+教育” 這個領域,進行personalization是特別重要的一個課題。就像因材施教,這個是在傳統的教室中無法實現的,因為一個老師要教30個人,100個人。現在因為每個人都有一個app,希望每個人都可以針對自己的情況去學習。這中間的難點不是AI的難點,是想怎麼把使用者各個方面的行為給model出來,才能夠真正去因材施教。並非只是語音語法這些知識的掌握,更多是行為層面。比如有些人需要老師天天督促學習,另一些人需要老師去鼓勵,還有些人是需要老師批評,所以我說的是這方面針對使用者的model,或者建模,使得確實能做到personalization。比如,做題容易放棄,或者是需要什麼激勵才能繼續學習下去。我要做強化學習,就要把這個人的所有data point都考慮,最後看怎麼用最合適的reward去使teaching更有效,這些都是現在還在嘗試中。

流利說 AI 劉揚:從教授到「AI 虛擬老師」

劉揚現場講述流利說技術難題

Alex: 資料採集本來就是個難題了——

劉揚:對,要考慮究竟哪些data point最合適。

Alex: 用類似測評的方法嗎?

劉揚:對,測評是一方面。但是很多東西不是透過一個簡單的測評就知道做錯題目背後的原因 。究竟只是有一個語法沒掌握,一個單詞發音不正確,還是有其他各方面的原因,那些東西可能是我所說的技術上面的難度——但不是AI這方面的技術。另一個非技術方面的難題是教育本身,如果這是一個做遊戲的公司,客戶黏性會很高,今天用了這個產品,明天還繼續用; 但是教育不是。不是人人都能留在app上,天天都去學習。像剛才提到的雅思考試,也許下個月要考雅思或者再過兩個月或一年出國,在這個特別明確的目標下,可能就會去用產品。但只是為了提高自身水平,想學點英語,沒有明確目標,就很難讓每個人都特別有engagement留在app上,使得他/她每天去學習。公司現在做的一些事情,就是企圖做一些social方面的東西使得產品與使用者的粘合性更好,或者做一些其他方面的嘗試——我們有督學,促學性質的老師天天提醒你,或者建一個群,使得大家能夠更motivated的去學習。但究竟怎麼是最有效的方式,還需要摸索。

Alex: 記得微軟亞院的副院長周明講過,在認知和語言處理方面,一個很大的因素是不像感知——它還需要一些UI/UX的配合。一個產品UI/UX做得好,使用者更願意engage,才能蒐集到更多資料,做更好的模型。您從技術到產品過渡的過程中遇到過類似的問題,怎麼能夠讓您的好技術跟產品很好的嫁接在一起?

劉揚:這屬於很多不是做純技術的人可以解決得比較好的一個問題。比如說AI core的技術在裡面,但是需要把它給包裝成使用者都喜歡用的產品,裡面就需要很多像UI/UX或者內容的東西。即使能夠識別語言,能夠知道語法錯誤,但怎麼把它變成一個每個人都特別適合用的產品——就需要結合合適的內容,還有產品各方面的這幾。我們這邊有兩個人是做內容,每天在考慮怎麼去教使用者,即使是同樣的語法點或者說一個詞,要用什麼樣方式教給使用者。這裡面有一些動畫的設計,有一些內容/topic方面的設計,整體屬於大的產品設計。

Alex: 有人把自然語言處理的問題分成了五類比如classificationmatchingtranslationstructure prediction以及sequential decision process深度學習現在用在這些領域都取得了很大的進展對,但是還不完美的地方。您認為深度學習在這五個領域都進行到了什麼地步了?還有什麼問題是比較難的問題?

劉揚:五個問題中最難的是最後一個問題 。classification是人們比較容易理解的問題。比如一段文字,像做classification的這個class可以根據不同的場景去做。有的人是關心,這個人對這篇review(的評價)是正面還是負面,就是評價歸類;也可能是做主題歸類,一個新聞,識別出是政治,魚類還是金融或者其他,就是主題歸類。這是standard machine learning的問題,傳統上有各種各樣的machine learning的分類器,從以前特別流行的SVM到最大熵模型,在NLP上面都比較有效。現在用深度學習跟原來的方法沒有實質性的變化,但是因為現在的方法簡化了很多,原來傳統的分類器往往是需要有人去設計feature——

Alex:Feature Engineering

劉揚對,這方面的工作特別多。如果要做positive/negative sentiment analysis,就要設計個詞是正面或負面,要找一些feature。如果做topic,要去做跟這個相關的feature engineering。現在的深度學習就是embedding進去,模型自然就學到了,神經網路裡面每一層都展示了不同的東西,最重要的就是系統簡化了。NLP不像speech recognization或者computer vision的改進特別大。深度學習在NLP上面沒有翻天覆地的變化。

Alex:最早的深度學習是用在語言/speech上面的

劉揚對,用在speech上面,我指的NLP是傳統的textbased的NLP。當然也可能問題是,text本來就是一個個符號化這個token,但演講或者視覺本身有連續性的特徵,深度學習 也許更適合。除了classification,還有一個是sequential。一句話,要把這裡面我想要找出的東西找出來,一個問題就information extraction,或者named-entity recognition。一句話我要找出來,這裡面有一個實體是表示姓名,可能是人名,還有一個表示餐廳,地點的名字,可以把它算成是sequence labeling 。一串的sequence其中有幾個是想找的有趣或者關注的 。傳統上的模型叫HMM,或者CNF,現在都用深度學習取代了,就是RNN,LSTM這些性質的模型,表現很好。對剛才說的classification的問題,也是省了很多feature engineering的問題。翻譯是第三類問題,現在基本上已經代替了傳統翻譯用的phrase-based translation的系統,基本上現在Facebook, Google,Microsoft等所有的公司都在用不同的深度學習,大家在框架上是稍微有一點點差別,但都是基於深度學習的翻譯體系。這是業界公認有效的一個體系。最後的一個問題就是sequential decision process,不管是深度學習還是傳統的machine learning都還沒有解決這個問題。每天跟Siri或者Alexa講話都是multi-term conversation,我們往往說幾句話就意識到,這個系統完全不行。一句話,有時候它還能回答。一句話如果讓它做classification,它知道問的是哪一個問題——要找一個人還是問一個地點,這是簡單的可以回到份內的問題,或者回到matching的問題——在一個很大的資料庫中可以找到類似的答案,但是如果需要建模個人的對話,從第一句話到第二句話,到第三句話,還有你我分別說了什麼,這個整體的談話歷史的構建,暫時還沒有特別好的解決方法。

Alex: 您未來三五年的工作方向是什麼?

劉揚:像我剛才說的,公司還是想做AI在教育方面的應用。短期來看還是語言學習,將來這個教育能夠擴充套件到哪些領域,現在還不是特別確定。但即使從語言學習這個方面已經很多事情需要做,把AI做好,從語言識別自然語言理解自然語言理解包括方方面面,從詞到語法,到語義,再加上對整個世界各種common sense的knowledge都要model,使老師能夠有效的去教學生。加上剛才提及的,要對學生各種各樣的行為建模,使他們能更好的personalized learning。在未來一到三年,要做中國人的語言,也可能包括其他語言,對不同年齡層——成人,兒童的英語——進行建模,不是件特別容易的事情。

Alex: 今天聽了劉教授對自然語言處理技術的一些分析,以及她對於流利說如何把技術利用在教育領域的感想,受益匪淺 。同時也瞭解到劉教授從一個頂尖科研人員到涉足產品技術,幫助AI應用,以及成為工程師的職業轉變。希望對大家有所啟發。謝謝劉教授!

劉揚:謝謝!

相關文章