編者按:過去20年間,微軟研究院位於世界各地的實驗室都在集中力量研究電腦科學領域中各種課題。研究院從一開始就投入巨資,力圖在機器智慧領域取得突破,其中包括在機器學習和大資料。在這次採訪中,傑出科學家Eric Horvitz談到了自己對這一領域未來發展的前瞻、他們對日常生活的影響,以及如何藉助源自大資料的深刻見解和更多智慧軟體和服務的開發來改變這個世界。

在位於世界各地的微軟研究實驗室裡,一些非常深刻的思想家正在思考有關大資料的課題。其中就包括微軟傑出科學家兼微軟雷德蒙研究院聯合院長Eric Horvitz。最近,他憑藉自己對“不確定性及有限資源情境下的決策型計算機制”的研究而當選為美國國家工程院院士。

他認為,未來的機器在大量資料的武裝下,可以成為“大有裨益的終身數碼伴侶”,它知道你想要或需要的是什麼(是比薩餅還是藥物),你想去哪裡(是夏威夷,還是選擇最不堵車的路線去看球賽),而且往往還能以您的名義飽蘸激情投入工作。

資料的捕獲、儲存、解讀和利用可以提供各種尺度上的深刻見解——無論在高科技領域還是日常生活中,Horvitz表示。

“當今世界上,能夠用於預測建模、視覺化和發現新事物的大規模有效資料分析正在成為許多領域取得成功的核心要素。”

微軟新聞中心最近採訪了Horvitz,請他談談微軟研究院(MSR)是如何投入時間和人力從事大資料和機器智慧領域研發,並且取得了哪些突破,同時也請他發表一下對這些領域未來發展的看法。

問:您為什麼認為眼下大資料已經成為一個時髦詞彙了呢?

Horvitz:時髦詞彙的產生有各種各樣的原因。對於大資料而言,我認為是幾個因素共同導致了這一朗朗上口的詞彙的普遍使用。其中之一是人們在不同領域採集到的資料量之大,達到了前所未有的程度;而感測、儲存和網路等電腦科學領域也在不斷前行。人們需要收集大量資料,一部分原因在於許多人類活動已經轉向了網路,各種交易和事件資料的收集變得十分容易,而且能夠實時同步收集。

這些活動包括電子商務、通過道路上的感測器記錄汽車行駛狀況、利用位置資料提供智慧手機服務,以及醫療保健。在醫療領域,基因組研究的突飛猛進和醫院臨床資料捕獲將越來越多的GB級乃至TB級患者資料輸送到資料庫中——即便如此,我們仍處於生物醫藥資訊學發展的早期階段。與以前相比,儲存也已變得非常便宜。過去,我們嚐嚐說“或許有一天會出現TB級的資料”。

而現在,即使你的孩子也可藉助一個小小的驅動器,隨身攜帶TB級的資料去學校上課。在計算方面,我們用於處理資料的計算程式也取得了進步,並且出現了許多有趣的用途——例如利用資料建立預測模型等。舉個例子,我們可以利用資料,對計算機使用者的不斷變化的意圖或興趣進行實時預測,並學習識別使用者的手勢。我們可以藉助患者資料來預測病人出院後再度入院的可能性。

問:微軟研究院的機器學習研究與該領域的其他機構有何不同?

Horvitz:微軟研究院是眾所周知的開放型研究實驗室,我們鼓勵研究者自由發表研究結果和進展。這一點吸引了最優秀和最聰明的人才。在MSR,人們的研究動力來自現實世界裡層出不窮的有趣挑戰。他們還可以訪問大量的資料資源——更誘人的是,他們有機會把自己最棒的想法交託到數百萬人的手中付諸實用。在我們這裡,專攻機器學習的研究人員是世界各地從事機器智慧研究的巨大群體的組成部分。除了機器學習之外,我們的研究工作還包括機器感知、自動推理和決策。機器學習已經滲透到了微軟研究院的DNA中,而且也是研究院最早確立的幾個關鍵性優先研究領域之一。

今天,在我們實驗室裡從事機器學習研究的人員已經構成了一股強大的知識力量。其中包括從事核心原理及應用的深刻思想家團隊。在劍橋、北京、班加羅爾、矽谷、新英格蘭和紐約市,我們還有許多其他團隊也在從事機器學習研究。總之,這些小組已經構成了世界上最大的機器學習研究團隊之一。

問:在MSR的機器學習研究努力中,有哪些成果已經被運用到了微軟的產品中?

Horvitz:有許多的努力成果應被納入微軟的產品和服務中。這些成績中有許多要歸功於MSR研究員與產品團隊之間異常密切的合作關係。舉個例子,微軟研究院承擔了學習如何對事項進行排名的核心工作。這項工作形成了必應搜尋在響應使用者查詢需求時對搜尋結果進行排名的核心方法。MSR在視覺系統領域的研究也是眾所周知的——機器不僅可以看到,而且還可以識別出它們所看到的東西——此外還有語音識別和翻譯。當你使用必應語音搜尋或必應翻譯時,你就是在利用MSR所提供的核心機器學習研究成果。

我們的劍橋團隊之所以名聞遐邇,是因為他們找到了對影像進行分割和分類的方法,這項有價值的創新工作成為Kinect的關鍵驅動力之一,讓它能夠識別房間裡的人以及他們的手勢。

MSR著稱於世的還有機器學習研究在生物醫藥資訊學和臨床醫療等方面的應用。在雷德蒙實驗室,我們已經投入了大量精力研究如何利用來自醫院的大量臨床資料建立預測模型,以指導醫院的管理決策。這些系統目前已經應用到我們周邊的醫院,旨在提高它們的醫療服務水平。另一項應用是必應地圖和必應路線,它能提供北美地區72個城市的車流量敏感型路線指引。必應路線使用了MSR所研發的方法,表明我們能夠從交通曆史資料中學習,並預測更大城市區域內所有街道上的實時交通流量。機器學習甚至出現在Windows作業系統的深處。MSR與Windows產品團隊合作,開發一個實時的預提取系統,並應用於Windows 7和Windows 8。Windows能夠不斷地學習使用者的活動模式,然後預測他的下一步動作——這樣會讓作業系統變得更快。

問:這種廣泛機器智慧研究的目標是什麼?

Horvitz:方向和目標是非常寬泛的,從機器學習基礎科學的探索,到了解如何以最佳方式處理特定型別的資料,再到執行特定任務。我們還在探索和開發更有效率和更強大的工具,以支援機器學習的工程實踐。在這個方面,我們一直在探索和開發某些工具和方法,讓非專業人士或半專業認識也能夠自主開發預測模型並進行資料分析,進而出色完成手頭工作。這是一個非常有意思的挑戰——把能力交付到終端使用者的手中——通常情況下,這種分析能力只掌握在機器學習專家和統計師的手中。

問:這聽起來像是一項艱鉅的挑戰。你們打算從哪裡入手,讓大眾也能享用機器智慧?

Horvitz:在機器學習領域,人們已開發了許多演算法的程式,而其中每一種通常都會附帶某些用於對其方法進行除錯的“撥杆”和“旋鈕”,使之能夠針對手頭的資料和任務。目前的問題是,究竟哪種方法才最適用於特定的資料集和學習任務。對原始資料清理、提煉和匿名化,使它們易於處理和分析——這也是挑戰之一。機器學習領域有多種危險區域,而各種新工具則可以幫助人們具體指明自己希望學習的內容,以及如何驗證其建立的模型所作預測的準確性。此時就需要有決策系統,其核心在於如何根據這些預測,引導人們的行動和政策。我們正在努力建立一些新工具,用於指導資料收集、分析和測試——並且同時為終端使用者提供有關視覺化和決策的深刻見解。

問:在機器學習領域還有哪些其他的障礙?

Horvitz:我們一直在應對的一大挑戰是開發某種可以理解和翻譯談話內容的機器。有時候,準確度的微小進步都會對系統能力產生很大影響。近日在中國天津,(MSR首席研究官)裡克·拉希德當著大批觀眾的面演示了從英文到漢語普通話的實時翻譯能力。他先做即興發言,接著由機器對他的講話進行翻譯,然後再用他自己的音色把譯文重現出來——這樣,他就能夠實時地說普通話了。他所用的翻譯管道包含了多種技術,但從某個角度上看,最突出、最令人訝異的創新則體現在對談話內容進行語音識別的準確程度得到了驚人的提升。這是過去幾年間剛剛出現的新生事物,而這也恰恰是MSR從新的方向進行機器學習研究和實驗所取得的成果。

問:那麼微軟研究院將主攻大資料課題的哪些方面?

Horvitz:目前存在著許多有趣並且前景可觀的研究方向。我不得不說,這是一個著實令人興奮的機會——而且我們正處在一個激動人心的時代。放眼更長遠的未來,我預計更廣泛意義上的機器學習和機器智慧將為我們提供改弦更張的科研新工具,而且在未來幾十年間,許多突破將會在人類與機器學習以及推理工具的協作中誕生。我們將有機會從大量資料中學習新的東西,其中包括藉助自動學習工具對資料進行挖掘,從而揭開醫療衛生領域的某些奧祕——其中一些工具甚至可以識別因果關係,即A實際上導致了B。

另一個方向是把幾種技術編織在一起——包括機器學習、語音識別、自然語言理解、機器視覺和決策,建立一些系統,使之能夠像聰明的合作者,以各種新的方式對人類的智慧加以補充。

另一方面,我們在網上搜尋和檢索的新途徑研究中也將獲得很多機會。我們還將另闢蹊徑,運用機器學習技術,從海量人口資料中擷取有用的訊號。例如在最近的工作中,我們開發了一種新的方法,可以從匿名化的搜尋日誌中發現有關藥物副作用的線索。我相信,這種以資料為中心的方法將會通過多種多樣的途徑改變這個世界,並在醫療、教育、科學和商業等領域產生影響。

問:假設您是Jules Verne,您能否預言這項研究對未來意味著什麼?

Horvitz:展望了未來,我相信總有機會構建這樣一些系統,它們將成為人類大有裨益的終身數字伴侶,能夠深刻理解你想要做什麼、你想去哪裡,你想學習什麼,你需要怎樣才可以保持健康,你擅長以及不擅長什麼,並且能夠以你的名義連續工作,為你提供協助和配合。幾個方面的研究工作已經讓我們窺見了廣闊可能性的端倪。

問:當初您為什麼要涉足這個領域?

Horvitz:我一直很想理解人類的心理,我的好奇心驅使我從生物學轉入物理學,接著又投身資訊與計算科學。除了核心探索之外,多年來我一直樂此不疲地將學習和決策的原理應用於現實世界,並以此創造價值——與此同時,它又與思維繫統這一巨集觀課題保持在某種關聯。我與“神級”的同事們一起研究原理及其應用,並從中獲得了巨大的樂趣。在微軟研究院這樣的地方,我們每個人心理都有一個誘人的“槓桿”,而其支點則在遙遠的地平線上。我們的下一個創新想法或許真的可以影響到微軟的產品和服務,進而撬動整個地球。

問:這正是你們的日常工作,對吧?

Horvitz:(笑)沒錯。不過,我一直很認真對待這個問題,我們並不是在開玩笑。

問:《哈佛商業評論》已經斷言,資料科學家是“最性感的職位”,您怎麼看?

Horvitz:這很不錯。您可能會說,從某種角度上看,多年來電腦科學和其他工程技術領域一直不受待見,是因為人們面臨職業選擇時一直在尋找“崇高事業”——例如在醫療保健和法律等。但我相信,計算科學正在成為我們這個時代的“崇高事業”,因為計算促成了許多其他事物,從航空航天到醫療科學,從法律到政府管理。

via:雷鋒網