微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT

微胖發表於2017-11-07

撰文 | 邱陸陸

編輯 | 藤子

NExT 成立的第三年,還是沒有部門網頁。

微軟這個神秘而低調的部門,從不主動尋求曝光,卻常有專案被 CEO Satya Nadella 掛在嘴邊;它不僅有微軟亞洲研究院(MSRA)及其合作實驗室做其科研後盾,還有微軟工程院的諸多工程師「大牛」隨時待命,把成員們的奇思異想變成現實。這個部門叫做 NExT(New Experiences and Technologies organization),是微軟為未來準備的「秘密武器」。

它像是一家在微軟大樓裡辦公的孵化器+風險投資機構,陪伴手握想法與熱情的員工一路走過天使輪、A 輪、 B 輪,又在他們進入 C 輪之後目送他們與自己的產品工程團隊攜手走向更遠。你可能曾經聽說過他們「能提升必應所需機器學習演算法運算速度 100 倍」的 FPGA 晶片和深度學習加速框架 [1][2],驚異於他們將資料中心機櫃放進潛水器的腦洞 [3] 和接近絕對零度的量子計算機系統結構 [4],但從未見過 NExT 作為一個整體的樣子。

十月,在微軟亞洲研究院與哈工大聯合主辦的第十九屆「二十一世紀的計算」(21 CCC)學術研討會上,我們在已經進入冬天的哈爾濱發現了 NExT 的「制導控制員」——ACM fellow、微軟全球資深副總裁 Peter Lee,並在他的指引下揭開了 NExT 的神秘面紗,得以一窺微軟視角下的 AI 時代。

微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT

ACM fellow、微軟全球資深副總裁 Peter Lee


以下為採訪梳理,作者對內容有不改變原意的調整。

挖掘微軟研究能力,探索教育、醫療保健和金融等高價值領域


被 NExT 選中的專案有哪些共性?

有想法的人很多,但總的來說,我們傾向於關注那些受到基礎研究啟發的想法。如果說 NExT 在這個 VC 模式裡有哪些「開掛」一般的優勢,那就是如同微軟亞洲研究院一樣,具備深度科研能力。如果專案沒有充分利用這個優勢,我會十分擔心,因為任何初出茅廬的年輕人就能組成初創公司並打敗我們。我們在創業熱情上未必是他們的對手。如果某個專案既充滿激情,又充分利用了我們世界級的研究能力,那麼,VC 圈的大部分專案沒有這種能力。在這種情況下,我覺得可以投資這個專案了,因為專案具有別人沒有的優勢。因此,研究是我們的基礎與根源。

有多少專案已經從 NExT 畢業呢?

從三年前成立 NExT 以來,有 4 個專案走到了 C 輪,其中有 3 個專案已經從 NExT 畢業並組成獨立產品團隊。

第一個是對話機器人框架(Bot Framework),現在由微軟全球資深副總裁 Lili Cheng 負責。這是讓任何應用程式開發者都能夠快速建立智慧聊天機器人的技術。第二個是量子計算,新任副總裁 Todd Holmdahl,正在進行很多工程上的嘗試讓它成為現實。第三個專案專注於銷售智慧,旨在為銷售團隊提供由神經網路帶來的獨到見解,例如商品可以賣給哪一類潛在顧客以及哪些現有顧客有流失風險。當然了,也給正在進行談判的交易提供談判相關的報價與條款建議。

除此之外,還有 1 個到了 C 輪階段,現在仍然在 NExT 的專案,也就是 Catapult & Brainwave。這個專案主要將 FPGA 和神經網路融合進我們的全球資料中心網路。雖然這個專案很大,但此刻它仍在 NExT 之中。

如何決定哪個專案可以畢業?

這可以說是一門藝術,很多時候我都無法確定我做的決定的正確性。就像一家 VC 公司也會不斷問自己:什麼時候把公司推向下一輪,什麼時候進行 IPO。這是一門藝術,說不定我們需要機器學習來幫助我們決策!

例如像 Catapult & Brainwave 這樣的專案,他們應用的技術是如此獨特,因此我覺得現階段離研究團隊更近一些更好。直到今天,微軟亞洲研究院還在給 Catapult 輸送大量的基礎技術。因此讓專案留在 NExT 內,似乎會讓它變得更好。

NExT 中的所有專案都與 AI 有關嗎?

不是,並非所有專案都與 AI 有關。比如,Catapult 實際上最初就是一個計算機架構專案。當然,現在新的計算機架構也會受到深度學習的影響,但我們還有其他一些專案,重點關注的是網路安全、資料視覺化和探索等等。還有一些稀奇古怪的專案,比如在 Natick 專案裡,我們試圖把計算裝置放進潛水艇,做成水下資料中心。

如你所述,NExT 非常看重專案的基礎研究和技術含量,然而技術並不是產品或服務走向市場的唯一障礙。例如超市的自助結賬機,技術在 20 年前就成熟了,然而至今也沒有取代超市中收銀員地位的跡象。NExT 是如何衡量與控制這部分障礙的?

從商業的角度來看,這是一個價值問題。哪些人工智慧應用真正創造價值呢?價值的一種體現形式是提高效率。因此,如果我們有能自主結賬的人工智慧技術,它雖然有一定的價值但極為有限。因為收銀臺的員工除了完成收銀工作外還提供了額外的服務價值。另外,從超市整體角度看,人工收銀員的成本並沒有那麼高,因此這項技術創造的價值並不大。

我認為尋求這種高價值對微軟來說是重要的。因此,這就是為什麼我們一直在努力思考並探索在教育、醫療保健和金融等方面有很高應用價值的領域。這些都是我們關注的重點領域。

例如,在醫療方面,如果你罹患癌症,你會找放射科醫生拍一張 3D 影像,然後如果選擇了放療,醫生要仔細規劃鐳射路徑。這當然很危險。你希望鐳射能夠切除全部腫瘤並傷害儘可能少的健康組織。因此放射性療法規劃是一門需要大量技巧和訓練的學問。當然,放療規劃也是一門藝術,每一位優秀的放射科醫生都會發展出自己的風格。因為醫學的實踐仍然具有很強的人為甚至是直覺的成分,我們一直在努力研究,如何讓先進的計算機視覺技術為放射科醫生提供幫助。現在醫生做放療規劃需要 1 到 2 個小時,有時甚至超過 2 個小時。這是一個非常痛苦的不斷地選擇、點選的過程。我們一直在努力思考,如何解放放射科醫生的雙手,讓他們專注於放療的「藝術部分」,讓機器去完成那些類似標註的苦差事。因此,我們啟動了 InnerEye 專案。我們讓數家診所的多位放射科醫生進行了測試,發現專案能夠將放療過程縮減到 10 分鐘,並且讓放射科醫生能夠充分發揮自己的創造力和想象力,而不是將時間浪費在諸多單調乏味的工作中。InnerEye 產生的價值非常高,因為一方面,放射科醫生的時間和精力是非常昂貴的,另一方面對病人來說,使用輻射治療是一項危險係數極高的活動,取得好的成果是很重要的。因此,高價值應用對我們來說非常重要。

另一個例子是致力於客戶支援的 Toronto 專案。在一個處理客戶支援的呼叫中心裡,接線員的工作壓力非常大。通常情況下,他們必須同時處理 2-3 名客戶的電話。對於一家公司來說最困難的地方在於人員流動率太高,以及糟糕的客戶體驗帶來的流失,這代價非常昂貴。我們在思考,如何使用人工智慧讓客戶支援接線員的生活變得更容易,甚至更有生產力,讓他們能夠同時處理更多的客戶需求。

這樣的例子還有很多,例如我們在思考 AI 能否幫助提升糧食的產量,所以我們用感測器、無人機和人工智慧分析技術來自動化農場的運作。NExT 在做的這些事情都在回答一個問題:為什麼這件事很有價值。不是「我們現在有這麼個技術,我們覺得能用它替代人工。」,不,我們在思考的是如何能夠為世界上生活的人們創造一些有價值的東西。

微軟的深度學習之路:從成熟的底層設施走向服務和工具


作為一家平臺公司,微軟內部有非常多不同的部門正在從不同的角度切入人工智慧,很好奇公司內部如何對所有與人工智慧相關的研究工作進行分類?

我認為微軟對人工智慧與機器學習方面的研發投入主要分為三類。

第一種叫做「戰略合作」。像 Office、Windows、Xbox 或者 Skype 這樣的產品或服務團隊每天都面臨著很多的挑戰,他們將機器學習和 AI 視為解決一些問題的手段。不僅是產品團隊,銷售與市場部門、人力資源部門乃至法務部門都希望能應用機器學習,因為機器學習帶來的轉變是革命性的。

舉個例子,法務部門非常想要打擊那些冒充微軟技術支援人員盜取使用者個人資訊的犯罪分子。而我們真的透過機器學習檢測到此類活動、找到源頭並聯合執法部門完成了這一任務。事實上,美國聯邦貿易委員會也與微軟進行了機器學習方面的合作。我們得以對多項犯罪行為進行起訴。

這一個類別裡,機器學習獲得了很多內部應用。不僅讓產品和服務變得更好,也讓公司內部運轉效率得到提高。因此,戰略合作類研發投入指努力找出那些能夠進行內部合作的重要事項,並提供幫助。

第二類,我稱之為「目標明確的登月計劃」。我們要越過公司當下的考量看到更遠的地方。例如公司當下像很多大公司一樣,非常看重資料,尤其是標註資料。但是我們以未來的視角思考,就要看到無監督學習方法、強化學習方法和博弈論可能更為重要。還有,我們認為聊天機器人不只能完成特定任務,還會完成一部分社交職責。這種想法旨在超越公司現有的思維模式,發現對於未來更重要的工作。

第三類是「基礎研究」。這類投入的目標是確保微軟擁有全球在特定領域裡最聰明的人。這也是我們為什麼積極地與大學研究者合作,並在有同行評議的期刊和會議上發表我們的工作。我們積極參加國際上的語音與計算機視覺方面的競賽,確保微軟至少與其他公司在研究實力上處於同一起跑線。

你在此前在演講中提到,我們需要找到類似活字印刷一樣「大規模生產」AI 的方法,這也屬於「登月計劃」的一環嗎?

是的,或者開發一個適應性更強的人工智慧。假設我們有一些機器學習或人工智慧模型,可以生成用於客戶支援的聊天機器人,幫助客戶支援接線員更好地完成工作。我們投入了大量的精力,收集了大量的資料,然後訓練模型,一旦完成,我們就有了一個非常強大的客戶支援工具。現在我們可以問自己,所有這些工作都可以轉移到另一個公司和他們的客戶支援問題上嗎?現在的技術水平下,完成一個 AI 系統仍然有很多困難的工作,它仍然需要一些受過大量訓練的人,或者說工匠,來做這個。因為現在做這項工作的人才非常昂貴,這確實限制了技術的可用性。因此我提出了「匠人 AI」這個觀點。

還有對標註資料的過度依賴。

是的,這也是個大問題。在一些特殊的領域裡,遷移學習可能很有效。例如,在使用微軟的「認知服務」,比如語音 API 時,你想讓你的語音系統瞭解特定的術語,實際上在微軟的語音 API 裡,你可以上傳你的訓練資料——那些專業術語,然後使用遷移學習來對現有模型進行擴充套件。這個過程仍然需要人工完成一些工作,但它變得更容易了。事實上,我們發現,越來越多的公司無需我們幫助就能做到這一點。比如 視覺 API,人們可以上傳他們自己的標記影像,然後得到一個基於我們所有針對 ImageNet 這樣大型資料集完成的工作的大型視覺模型,但它同時掌握有關於你的知識。在 PowerPoint 中,我們也有一個自動字幕生成功能,它內含一個語音模型,可以讀取你的幻燈片,然後對一個基本的語音模型進行擴充套件。

微軟在無監督學習方面持何種態度?

我認為無監督學習是非常重要的,我們在這方面也取得了巨大的進步。有許多不同的方法來制定無監督學習。你知道,我們在微軟亞洲研究院一直很重視對偶學習方法。事實證明,這種對偶學習對於解決某些特定問題,如機器翻譯,乃至一些視覺問題,都非常有效。當然,也有很多興趣投入在生成性對抗網路中,這種興趣不僅出現在我們實驗室,也出現在很多和我們有合作關係的學術機構裡。

對於微軟來說,無監督學習非常重要。微軟是一家平臺公司,所以我們沒有太多的顧問可以去每一家公司或企業,實地幫助他們建立模型。我們想要提供一個平臺,而如果模型的訓練不受限於監督學習,那麼這個平臺將會更有價值,更容易讓客戶使用。

針對「基礎研究」,微軟都取得了哪些進展?

我們的語音識別模型在 Switchboard 資料集上取得了 5.1% 詞錯率的成績,這是一個超過人類速記員水平的成績。而 2015 年的 ImageNet 比賽是我們取得 ResNet 突破的時候。我們在影像檢測、識別、分割等五個類別的比賽中都取得了突破性的提高。然而目前我們仍然無法在影像識別這一大領域取得整體與人類相媲美的結果。在一些更小的領域裡,比如,ImageNet 的一千類物體的識別任務,我們可以超越人類。

回過來說,其實我認為更重要的里程碑是 ResNet 成為了學術和科研領域的一個標準概念。我們不僅在微軟自己的產品裡能夠看到對 ResNet 的大量應用,也能看到業界其他公司頻繁使用 ResNet。這種影響力對我們來說更重要,因為這意味著我們不僅僅在提高自己對問題的認識水平,也推動整個行業向前一步。

另一個基礎研究領域非常熱門的話題是,什麼樣的計算硬體最適合進行機器學習訓練與推理。我們能看到在 CPU 領域,摩爾定律已經在逐漸變緩了。然而在完成卷積神經網路等特殊結構的工作這一塊,透過專門硬體提升速度這一課題還有很大的空間。因此我們努力開發有針對性的 FPGA 硬體 Catapult,以及加速深度神經網路推理的引擎 Brainwave。Brainwave 的規模可以非常大,事實上它遍佈我們全球的資料中心網路。雖然不方便透露具體數字,但在規模上是在一個網路裡就包含數十萬塊晶片。

FPGA 通常被認為適用於特定任務而延展性不佳,是一種十分有「個性」的晶片型別,為什麼微軟選定它作為重點?

我認為原因有兩大點一小點。兩大點是,第一,FPGA 的升級速度非常快,至少是 CPU 或者 GPU 的速度的兩倍。所以我們非常想要藉助這一股快速發展的東風發力。第二,我們現在對深度學習的理解還處在非常早期的階段。早期到什麼程度呢,我們對訓練和推理演算法的具體原理都還在不斷地變化。而 FPGA 的優點是,你可以在軟體層面對硬體進行修改,也就是說電晶體的組織形式可以透過軟體來更改。然而如果我們生產了 TPU 這樣的晶片,一旦製作出了一代晶片,想要進行任何大改動都要再等一個迭代週期,這個週期的時長是 18-36 個月。而在這段時間裡,會湧現無數的演算法創新。可能在未來的某一天,我們認定深度學習問題已經基本解決了,那就是時候製作 ASIC 了。但是現在,還不是時候。

第三小點是一個特別實際的原因,我們推崇 FPGA,因為 FPGA 的用途不止於機器學習,我們也在一些安全問題和一些雲的網路加速問題中使用 FPGA。因此使用 FPGA 可以同時解決機器學習問題和網路加速問題。

如果將深度學習比作一條長路,您如何劃分這條路的各個階段呢?我們又處於哪個階段?

在我的幻燈片裡,我展示了當下與機器學習相關的服務、底層設施和工具。其中最成熟的部分是底層設施。我們對如何與機器學習和 AI 相關各種型別的資料的經驗十分豐富。

微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT


下一個部分會是服務和工具。雖然我們對應該提供何種服務的見解相對沒那麼成熟,但我們已經建立了很多模型,用於語音識別、影像識別、人臉識別。微軟也圍繞它們構建了好用的 API 並放在了 Cognitive Services 的雲上。已經有很多開發者和公司開始使用它們並認為它們很好用。但這還不是一個完全成熟的領域。我們還只是拿出那些自用時很好用的工具,猜測人們可能也會喜歡它們,所以以 API 的形式公開它們。我們也有 Azure 機器學習系統,是一個視覺化的程式設計系統,讓領域內的專家能夠構建它們自己的機器學習模型。還有工具,我們有一個很「微軟」的想法啊,就是希望支援所有的機器學習開發工具,無論是 TensorFlow、Caffe 還是微軟自己的 CNTK。

所以基礎設施很完善,其他部分也在迅速地發展。我們透過觀察客戶如何使用這些系統來進行學習,得到了許多反饋,也進行了很多改進。我們經常從客戶處得到驚喜。但總體來說,我們希望「雲 + AI 平臺」的模式能夠加速我們的客戶和開發者使用人工智慧的腳步。在這條路上,我們剛剛踏出第一步。微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT

相關文章