詳解Windows 11背後的技術創新

微軟技術棧發表於2022-01-29

問世30多年來,Windows 已經成為全球億萬人工作、生活、創作時不可或缺的絕佳夥伴。2021年10月5日,微軟產品大家庭正式迎來了最新成員 Windows 11。在如今混合辦公、遠端協作成為新常態的背景下,新一代 Windows 11 創新的功能設計、高效易用的體驗、豐富精彩的內容,將更好地幫助使用者提高生產力、發揮創造力。而在 Windows 11 個性化、智慧化功能的背後,既有微軟產品團隊努力的成果,也離不開微軟研究部門的技術支援。那麼,這些豐富實用的新功能是如何實現的?微軟亞洲研究的基礎研究創新成果又是如何轉化到一線產品中的?

2021年10月5日正式釋出的 Windows 11,小到“開始”選單、工作列的位置、圖示和字型的設計,大到自動化推薦、語音控制等功能,都讓使用者與之所愛更近一步。在更智慧化、人性化的 Windows 11 系統中,多個基於微軟亞洲研究院的技術創新實現的功能,為使用者帶來了全新的使用體驗。

在這些技術創新中,除了底層的技術支援之外,還有一些使用者熟悉的功能,比如從 Windows 7 開始,Windows 產品部門就基於微軟亞洲研究院提供的演算法,不斷提升中文、日文、韓文的手寫識別功能。而在最新版本 Windows 11 的“新聞與興趣(News and Interests)”和“語音訪問(Voice Access)”兩個功能上,研究院又進一步優化了底層模型,對演算法進行了創新,這背後是微軟亞洲研究院在推薦演算法、深度學習、自然語言處理等領域深耕多年的積累。

深度學習與 NLP 的融合,讓 Windows 11 “新聞與興趣” 知你所需

微軟亞洲研究院首席研究員謝幸表示,“新聞內容本身和閱讀新聞的使用者其實都可以用文字表示,推薦的準確與否本質上都可以看作是對這些文字語義理解的深度。過去的推薦系統要麼沒有使用深度學習技術,無法學習樣本資料的內在規律,要麼基於深度學習卻沒有結合自然語言處理(NLP)技術,無法對語義進行更深的理解。”因此,微軟亞洲研究院將最新的深度學習與 NLP 技術整合到了對使用者和新聞的建模中,大幅提升了推薦模型的效能和準確率。基於此模型,Windows 11 “新聞與興趣”功能實現了多樣化、個性化和更精準的新聞推薦,現在使用者可以通過 Windows 11 中的小元件等多種方式隨時看到他們最感興趣的新聞內容。

具體來看,可以將這一推薦演算法分成三層:
第一層是針對當前新聞內容本身文字的理解,實際上就是對自然語言的理解。這一層主要基於微軟圖靈通用語言表示模型,其核心模型和演算法採用了研究院最新的統一語言預訓練模型 UniLM 和多語言預訓練模型 InfoXLM,這兩項技術在語言理解、生成和翻譯任務上都取得了領先的結果。

第二層是對使用者的理解,也就是圍繞使用者所展開的一系列文字理解,但又不只是簡單的文字整合。雖然可以將使用者看成一個已經瀏覽或閱讀了新聞的文字集合,但不能將所有文字簡單地進行拼接,系統還需要了解使用者閱讀的先後順序,以及由此形成的使用者興趣群組、對興趣重要性進行區分等等,這些都是對使用者的建模過程。當考慮這些因素時,使用者就由原來一系列標籤化的表示,轉變為在深度學習中的向量表示,從而極大地提升準確率。

舉例來說,我們可以按照不同的屬性類別給某個使用者打上諸如男性、本科畢業、居住在北京等標籤,這樣當一條受北京男性喜愛的新聞出現時,系統就會將其推送給相關使用者。然而,這種推薦方法只做了簡單的匹配,因為這些標籤並不能準確地描述個人特徵,比如無法明確說明他真的是北京人,也不知道使用者真正的興趣愛好是什麼。但深度學習則可以拋開標籤,將每一個人變成數字,也就是向量,通過計算向量之間的相似性來推薦內容。

按照此方式,每個人都可以被看作是高維空間中的一個點。新聞則是同一空間中的另一個點,這樣就可以直接比較使用者和新聞間的距離。我們可以想象,在一個空間中同時包含了眾多的使用者和新聞,與其中一個使用者比較近的自然就是他喜歡的新聞。
最後一層是排序。理論上可以將新聞推薦看作是對高維空間中使用者與新聞內容距離的計算,但實踐中還有更多的因素需要考慮,例如新聞推薦的多樣性、公平性、可解釋性等等。

通過將深度學習與 NLP 整合到新聞推薦系統中,Windows 11 可以更好地滿足使用者對新聞的需求。資料顯示,在所推薦的新聞上,使用者的實時點選率得到了提升,瀏覽時長也有所增加。

該推薦演算法具有較高的通用性,涉及到個性化搜尋和推薦的領域,如微軟廣告、必應(Bing)搜尋等場景都能應用。另外,基於推薦演算法的研究,微軟亞洲研究院還與微軟新聞團隊聯合釋出了迄今世界上最大的英文個性化新聞推薦資料集 MIND,為新聞推薦的研究建立了相對權威的評測標準。而且在2021年的 ACL 大會上,雙方團隊還合作構建了第一個可以離線評測個性化新聞標題生成方法的基準資料集 PENS(PErsonalized News headlineS)。

用語音操作電腦,微軟無障礙功能不斷精進

歷代 Windows 版本都考慮到了無障礙增強功能,為不同類別的殘障人士提供支援和便利。而 Windows 11 中新增的輔助功能Voice Access(語音訪問),則通讓包括行動不便人士在內的所有人都可以通過語音控制他們的電腦,編輯文字內容,如操作 Windows 系統的應用程式、瀏覽網頁、編寫郵件等。

微軟亞洲研究院主管研究員吳俁說,“Voice Access 功能使用的是一種端到端的 ASR(Automatic Speech Recognition 自動語音識別)技術。它將聲音模型與語言模型融合成統一的模型,不僅可以更準確地識別出使用者的指令,快速完成相應的任務,更重要的是降低了對計算資源的需求,更適合在膝上型電腦等終端裝置上部署,即使在沒有網際網路的情況下,裝置也能支援快速語音識別。”

如上圖所示,Voice Access 首先會將桌面的專案進行編號,然後通過如下的語音指令進行控制。

早在2019年,微軟亞洲研究院就已和微軟 Azure 團隊的語音組合作開展了相關的語音識別研究。最初的 ASR 模型是聲學模型和語言模型的混合體,先由聲學模型把輸入的語音轉換為發音的最小單母音素,再用音素結合語言模型產生語音識別結果。由於模型體量較大,當時相關技術主要以 SaaS 模式部署在微軟 Azure 雲平臺上供使用者使用。隨著研究員們對 ASR 技術的不斷探索、提升,微軟的產品部門希望升級後的 ASR 技術可以更多地應用在產品端,以支援弱勢群體更方便地使用相關產品。

然而,直接將大規模 ASR 模型部署在終端裝置上並不現實。除了要將模型本身輕量化、提升運算速度外,在與 Azure 團隊語音組合作的過程中,研究員們也意識到在將技術轉化為產品時,優化模型不僅要聚焦準確率,還要以使用者體驗為第一優先原則。正如微軟亞洲研究院高階研究員劉樹傑所說,“我們做基礎研究的時候往往會把一些問題抽象出來,思考如何在一個點上發力把技術做到更好、更優。而產品部門的同事更多的是站在使用者的角度思考問題,比如使用者在什麼情況下對產品的滿意度更高,使用感受更好。”

在對端到端的 ASR 模型測試時,研究團隊和產品團隊就遇到了不同思維的相互碰撞。劉樹傑介紹到,研究員們注重的是客觀指標,會在大資料集上做客觀指標的測試,而轉化為產品後,產品經理更加註重的是使用者的主觀感受。因此,當 Windows 11 在微軟 Surface 以及各 PC 廠商的電腦上執行時,ASR 模型也要做相應的優化和適配。

開發過程中,微軟亞洲研究院與 Azure 團隊語音組和 Windows 產品部門緊密合作,反覆溝通,通過不斷迭代,使得 ASR 模型在多裝置上的測試結果都達到了人類正常說話時的水平。儘管目前模型只支援美式英語的語音識別,但該模型具有跨語言通用性,後續只需利用不同語言的資料對模型展開訓練,就能夠實現跨語言的語音識別與操控。
得益於深度學習的發展和充足的語料支援,自動語音識別 ASR 在大語種上取得了非常優異的效能。然而,世界上還有很多語言缺少語料資料,這些小語種、地方方言的使用人數較少,收集相應的語言資料會耗費大量的人力和資源,給相應 ASR 的實現造成了一定困難。為了解決這一問題,微軟亞洲研究院提出了一種極低資源下語音識別的新方法 WavLM,尤其是針對 ASR 的預訓練模型,其各項指標一直在 SUPERB 評測資料集排行榜上位列第一(https://superbbenchmark.org/l...)。

一直以來,微軟始終重視無障礙(Accessibility)方面的建設,目的是讓產品、裝置、服務和環境的設計更加方便地為殘障人士所使用。下一步,微軟亞洲研究院還將聯合微軟的產品團隊將類似的技術擴充套件到更多的產品和應用場景中,打破溝通與使用障礙,予力每一人。

煥然一新的桌面、簡潔的設計、舒適的佈局和靈活的體驗,無一不彰顯新一代作業系統 Windows 11 的高效與創新。無論是面向工作、學習、生活、遊戲,還是藝術創作、程式設計開發,Windows 11 都為使用者提供了一個更適合的模式。面對混合辦公新常態以及新的使用者需求,微軟亞洲研究院也會持續將最新的科研成果輸出到微軟的產品中,幫助更多使用者提高生產力,激發創作靈感!

關注微軟中國MSDN,瞭解最新內容

相關文章