德國人工智慧研究中心科技總監Hans Uszkoreit博士認為:語言技術是人工智慧的核心部分,但當前的深度學習方法還不足以解決NLP領域的核心問題。
在AI科技大本營微信公眾號(rgznai100)會話回覆“語言”,打包下載Hans Uszkoreit大神被引用的TOP10論文。
記者 | 胡永波
7月22 – 23日,由中國人工智慧學會、阿里巴巴集團&螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)將在杭州國際會議中心盛大開幕。
會前,我們採訪到了大會Keynote嘉賓、德國人工智慧研究中心科技總監Hans Uszkoreit博士。
Uszkoreit博士是中德兩國人工智慧合作的核心人物,負責德國人工智慧研究中心在中國的所有合作專案,今年3月,他剛被任命為在北京新成立的人工智慧技術中心(AITC)總監兼首席科學家。在訪談中,Uszkoreit博士談到了人工智慧在工業4.0和商業智慧上的應用,以及中、美、歐在人工智慧領域的差異。
對於他的老本行,Uszkoreit博士認為:
語言技術是人工智慧的核心部分,但當前的深度學習方法還不足以解決NLP領域的核心問題。
他提到漢語在語義理解上的潛力。
說起不久前NLP領域的大論戰,Uszkoreit博士認為Yoav Goldberg敢於倡導正確科研行為的嚴格規則,是個英雄。
以下是訪談全文:
中國AI研究需要覆蓋所有領域
CSDN:最近,媒體常常拿中美兩國的AI行業和研究成果進行對比。對於中美、中歐在AI領域的差異,您有什麼看法?以您的理解,哪一方能引領這一輪的人工智慧革命?
HansUszkoreit:歐美的AI研究有著長期的廣泛基礎,但中國正以驚人的力量和熱情追趕上來。在某些研究領域,中國的研發速度可能比美國還快。然而,中國的AI研究只是集中在少數幾個熱門領域,可熱點和趨勢總是來了又去。下一代AI架構,將會用到具備大量認知任務和能力的、廣泛擅長於AI的系統。我希望中國的研究人員能有足夠的動力迅速來覆蓋所有的AI研究領域。
我個人所期待的人工智慧突破,是多種感官資訊輸入的交叉領域,以及AI在常識性知識與直覺的獲取。
歐洲在語義學技術、神經網路與機器翻譯等領域的研發投入上往往準備充足,但研究成果在科學上的成熟與商業上的收穫更多發生在美國。其中的例外,是製造業領域的AI,它是歐洲、特別是德國的強項。而今中國在AI領域的下游應用研究與上游資金投入上同美國的大力競爭,則相當耐人尋味。前者是今天AI應用的關鍵,後者則有可能逆轉我們過去的AI創新流程。
CSDN:在深度學習近年來的進展上,有許多像李飛飛這樣的華人AI科學家和AI研究者,他們在其中做出了突出的貢獻。據我瞭解,您的許多研究夥伴也是華人,您能說說選擇他們的理由嗎?華人在AI研究領域有什麼優勢呢?
HansUszkoreit:長期以來,我都非常喜歡跟中國的博士生或博士後研究員們一起工作。他們頭腦聰明、積極主動、精力充沛而又注重實效。一般說來,中國研究者的高中和大學基礎都非常紮實。我個人的體會是,中國和西方研究者的混合團隊,其合作效果出奇的好。我會在北京繼續推動這種跨文化的合作。我相當期待接下來同過往的親密同事和學生們的交流,他們現在大都在中科院、中國的大學和公司工作。
投資環境和早期市場是AI創業成功的保障
CSDN:前不久,您剛任職北京人工智慧技術中心(AITC)總監兼首席科學家。您能跟我們介紹一下您這份新工作,以及這個新的研究機構嗎?
HansUszkoreit:AITC在今年3月份成立於北京的亦莊經濟技術開發區。它的使命,是把AI技術從研究成果轉化為工業應用。在德國,我們還沒有特別成功的商業化AI案例。有好多次,我參與創立的公司都是過早進入市場,好在歷經多年的掙扎,這些公司都活下來了。但更多的情況是,由於缺乏資金,我們只能眼睜睜看著美國的競爭對手取得成功。他們不光有著更好的投資環境,同時還擁有一個更大的早期市場。
在中國,我也同時注意到了這兩大因素的存在:一種友善的投資氛圍,加上一個需求龐大而前衛的B2B市場。在我的老東家DFKI(德國人工智慧研究中心),我們同20多家工業股東進行過合作研究,還創立過超過80家衍生企業,在AI技術轉化方面的這些經驗都來之不易。
基於這樣的經歷,AITC有能力實現這樣的技術轉化及其研究機制,以及成功的商業化AI的最佳實踐,這讓我們同時也有能力來幫助這一領域的其他人。
CSDN:工業4.0和商業智慧將成為主流的AI應用場景,但這兩大領域的不同之處在哪裡?對於AI在此所取得的突出成績,有沒有什麼具體的例項?
HansUszkoreit:第四次工業革命是由工業界所有的部門、裝置、人員之間完全的數字化連線所觸發的,工業4.0是一個針對於此的廣泛說法。這種完全的數字化連線是由物聯網來實現的,其中還包括機器、產品、車輛和建築之間的連線。
商業智慧適用於所有的公司,不只針對製造業。它的基礎是組織內部有關從戰略決策到日常運作的所有決策過程的資料。這些資料大多來自公司內部,但很多重要的訊號來自於外部的消費者、投資者、政策制定者、供應商和承包商,以及員工們的生活領域。對所有這些資料的分析,有助於做出更好的決策,甚至優化並調整決策的過程。
對於製造業來說,商業智慧是工業4.0的一部分。今天我們所能看到的,只是商業智慧與工業4.0的第一步。這裡的資料通常是需要去主動獲取與整合的。對於資料解釋,特別是針對非結構化的資料,AI將扮演一個重要角色,並從資料中不斷學習。物流與供應鏈領域的控制、優化以及預測管理,就是這方面AI應用的具體例項。
語言技術是AI的核心
CSDN:您是語言技術頂級專家。就語言技術來說,它在AI中的角色是怎樣的?前景如何?對於自然語言處理,它是否也存在一個突破性的時刻,正如深度學習之於影像識別、語音識別那樣?
HansUszkoreit:語言是知識的鑰匙,而知識正是AI的終極目標。人類社會的知識,正是通過語言來代代相傳的。僅靠觀察他人,人類是無法獲取到廣泛的可複用知識的。對於下一代智慧系統所需的知識,人工智慧必須能同時進行“閱讀”和“聆聽”才能獲取到。而此等程度的機器學習,其關鍵技術正是NLP。NLP還是實現人與AI之間成功溝通的技術關鍵。所以說,語言技術是AI的核心部分,並將在很大程度上同知識技術相結合。
CSDN:您怎麼看當前的消費級語言技術?特別是當下大熱的智慧語音助手,比如亞馬遜的Echo、蘋果的HomePod等?
HansUszkoreit:這些智慧助理正在成為我們日常生活的一部分。我自己也每天都在使用。它們還遠未完美,但能被快速改進,因為其前衛的使用者每天都在提供大量的免費資料給它們。
漢語在語義理解上有一定潛力
CSDN:對於不同的語言,其語言處理技術有何差異?比如說,漢語和英語。
HansUszkoreit:不同的語言差異確實很大。儘管作為口語,漢語和英語都能在同樣的時間內被小孩學會。但細節上,漢語沒有詞法,句法也相當簡單。二者作為書面語,絕無可能在同樣的時間內被人學會。事實上,漢語的複雜性絕無僅有。這對NLP來說更為棘手:漢語詞彙甚至都沒有起始標識。除了語言本身所固有的複雜性,漢語更難於用電腦處理的原因還有另外一個:NLP一直是被以英格蘭為中心的研究所主導。
但如果NLP未來的研究方法和演算法在處理漢語和其他東亞語言時的效果能超過英語,我也不會特別意外。這有一個先決條件,即找到語義理解上的改進辦法,畢竟句法在漢語中的重要性要遠小於西方語言。
CSDN:上個月,Yann LeCun對陣Yoav Goldberg的那場NLP大爭論十分引人注目。您如何看待這場爭論,特別是深度學習和NLP的關係?您支援哪一邊的說法?為什麼?
HansUszkoreit:我認為這場爭論被誤讀了,它不是一場NLP領域的深度學習倡導者與懷疑論者之間爭執,它不是那樣開始的。Yoav Goldberg不是反對深度學習,他也不是反對深度學習在NLP領域的應用。相反,Yoav大力推動了深度學習在NLP領域的應用。
Yoav Goldberg只是對那篇自然語言生成(NLG)領域的標題黨論文表示不滿,它只是在吹噓一些很小的成果。Yoav的說法並沒有錯:那篇標題黨論文對於NLG領域的研究進展毫無意義,它未能解決NLG領域所公認的任何問題。
而Yann LeCun和Fernande Pereira認為他們應該站在論文作者一邊的原因,是確實有很多的NLP研究者極端懷疑深度學習在語言分析和生成上的作用。LeCun和Pereira把這種懷疑主義視為過時的研究正規化反抗深度學習大法的無力嘗試。保守派對陣革新派,這是科學革命中的古老遊戲。但這絕非是Goldberg此次爭論的目的。
我個人的看法是
當前的深度學習方法還不足以解決NLP領域的核心問題。但它們已經改善並實現了NLP技術的很多應用。深度學習此處的不足,並不在於當前所用的各種人工神經網路及其各自的學習演算法,而在於我們還沒有正確型別與足夠數量的語言類標註資料。
人類語言和人腦共同進化的方式,是語言能被用來表達資訊和知識的同時,還能讓兒童用很短的時間就能學會。語言的這種可習得性與基本知識概念的可習得性緊密相連。沒有語言就無法學到概念,不與概念想結合也無法學到語言。
如果我們可以找出一個能同時教會人工智慧語言和概念的方法,問題就解決了。這裡的第一步就是基於人工神經網路的可複用知識的機器學習。
在這樣的技術變革形勢下,Goldberg只是在倡導正確的科研行為的嚴格規則。但我們都清楚,面對這樣的環境,慣常的行為標準並不總是適用。在社會變革中,有勇氣在正確的時刻說話的人,往往都是我們歷史上的英雄。
給年輕從業者的三條建議
CSDN:在您的人工智慧生涯中,最寶貴的經驗是什麼?對於新一代的AI從業者,您有哪些建議?
HansUszkoreit:我有三條小建議。
擴充套件視野:多去國外看看,或至少能在跨國企業工作一段時間。我在美國待了將近十年,並領導過多個國際專案。我一直都是一個國際博士生專案的共同負責人,我還主持過一個國際研究生專案。我在國際專案、暑期學校與會議中的經歷,極大地豐富了我的專業能力和個人生活。
愛上資料,儘量為你所愛的資料工作:它可能屬於商業統計、圖片、音訊、視訊或文字,所有這些資料都有它們各自獨特、豐富且有意義的內在結構。儘量弄懂這裡的結構,儘量靠自己來解釋資料。一定要堅持做高質量的錯誤分析,甚至要自己去讀這些錯誤資料。儘量把演算法的特性和資料的特性聯絡起來去看。
儘量去接觸自身領域之外的研究:至少,要能不時地去考量你的子領域同相鄰領域的關係、你的資料同其他型別資料的關係、你的方法同其他方法間的關係。不要因為你不理解就放過同其他領域專家進行交流的機會,敦促他們用最簡單的方式來解釋他們的問題和解決方案,同時嘗試以同樣的方式來解釋你自己的研究工作。多瞭解人類的認知機制,即便機器智慧的機制是一種完全不同的方式。
CCAI演講亮點
CSDN:您在CCAI演講主題是“結合機器學習和知識解釋的商務智慧應用”,但相對於上一代基於規則的人工智慧,機器學習和深度學習近年來突飛猛進、碩果累累,那麼,我們為什麼還需要這種基於規則的知識工程?
HansUszkoreit:當前,深度學習主要用來獲取某種形式的“智慧”行為。對於給定的輸入,系統能夠習得人類的方法並做出反應。這些系統還沒有外在的可複用知識,但能夠獲取到一些內在知識。只是這樣的知識通常無法被複用於其他任務。我並不支援人工智慧像30年前所嘗試的那樣來使用知識工程,但我堅信人工智慧終將找出辦法來使用人類已有的海量的外在知識(如維基百科或結構化的DBpedia等),並且它很快就能自動獲取更多的外在知識。
與其討論深度學習與深層知識間的競爭關係,我更願意去思考這兩大技術有效結合起來的前景:只要機器能夠從人類身上學習,它就有可能學會數以百萬計的人的知識。
CSDN:您對本屆CCAI大會有何期待?您最想聽的演講時哪一場?
HansUszkoreit:中國有很多我還不知道的AI研究團隊和研究中心,對於他們的研究成果與應用創新,我特別期待。對於中國公司所能貢獻的AI成果,我相當好奇。