清華2019最新AI發展報告出爐!400頁乾貨,13大領域一文看懂
2019-12-08 20:36:36
當前,人工智慧正處在爆發期。我國在人工智慧領域的科學技術研究和產業發展起步稍晚,但在最近十餘年的時間裡抓住了機遇,進入了快速發展階段。在這個過程中, 技術突破和創造性高階人才對人工智慧的發展起著至關重要的作用。 本週,清華大學AI研究機構AMiner釋出了《2019中國人工智慧發展報告》,報告遴選 13 個人工智慧的重點領域進行重點介紹,包括:機器學習、知識工程、計算機視覺、自然語言處理、語音識別、計算機圖形學、多媒體技術、人機互動、機器人、資料庫技術、視覺化、資料探勘、資訊檢索與推薦等。
本期的智慧內參,我們推薦清華大學的研究報告《2019中國人工智慧發展報告》,對人工智慧 13 個領域的人才情況及技術發展等內容進行了挖掘分析。 如果想收藏本文的報告(2019中國人工智慧發展報告),可以在智東西頭條號私信回覆關鍵詞“nc419”獲取。
本期內參來源:清華大學AMiner
原標題:
《2019中國人工智慧發展報告》
作者: 李涓子 唐 傑
一、機器學習
機器學習已經成為了當今的熱門話題,但是從機器學習這個概念誕生到機器學習技術的普遍應用經過了漫長的過程。在機器學習發展的歷史長河中,眾多優秀的學者為推動機器學習的發展做出了巨大的貢獻。
學者地圖用於描述特定領域學者的分佈情況, 對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為機器學習領域全球學者分佈情況:
▲機器學習領域全球學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。 從該地圖可以看出,美國的人才數量遙遙領先且主要分佈在其東西海岸;歐洲中西部也有較多的人才分佈;亞洲的人才主要分佈於我國東部及日韓地區;其他諸如非洲、南美洲等地區的學者非常稀少;機器學習領域的人才分佈與各地區的科技、經濟實力情況大體一致。 此外, 在性別比例方面,機器學習領域中男性學者佔比 89.8%,女性學者佔比 10.2%,男性學者佔比遠高於女性學者。
我國專家學者在機器學習領域的分佈如上圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏,這種分佈與區位因素和經濟水平情況不無關係。同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等亞洲國家相比,中國在機器學習領域學者數量較多。
▲ 機器學習領域中國學者分佈
對本領域的高水平學術會議論文進行挖掘,解讀這些會議在近年的部分代表性工作,會議具體包括:
International Conference on Machine Learning
Conference and Workshop on Neural Information Processing Systems
我們對本領域論文的關鍵詞進行分析,統計出詞頻 Top20 的關鍵詞,生成本領域研究熱點的詞雲圖,如上圖所示。其中, 出神經網路(neural networks)、深度學習(deep learning)、強化學習(reinforcement learning)是本領域中最熱的關鍵詞。 ICML 和 NeurlPS 是機器學習領域非常具有代表性的會議,限於報告篇幅,我們選取 ICML 和 NeurlPS 近十年若干最佳論文進行解讀。
ICML 2019 年最佳論文
論文題目: Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
中文題目: 挑戰無監督分離式表徵的常見假設
論文作者: Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar Rätsch, Sylvain Gelly, Bernhard Schölkopf, Olivier Bachem
論文地址:
論文解讀: 文章主要從理論和實踐兩方面對這一領域中的一些基本假設提出了挑戰。文章從理論上證明,如果沒有對所考慮的學習方法和資料集產生歸納偏置,那麼解耦表示的無監督學習基本上是不可能的。文章還採用了完善的無監督解耦學習實驗方案,進行了一個超級大規模的實驗研究。最後還發布了disentanglement_lib,這是一個用於訓練和評估解耦表示的新庫。由於複製這個結果需要大量的計算工作論文還發布了超過 10000 個預訓練的模型,可以作為未來研究的基線方法。
論 文 題 目 : Rates of Convergence for Sparse Variational Gaussian Process Regression
中文題目: 稀疏變分高斯過程迴歸的收斂速度
論文作者: David R. Burt, Carl E. Rasmussen, Mark van der Wilk
論文地址:
論文解讀:這篇文章來自英國劍橋大學。自從許多研究人提出了對高斯過程後驗的變分近似法後,避免了資料集大小為 N 時 O(N3) 的縮放。它們將計算成本降低到 O(NM2),其中 M ≤ N 是誘導變數的數量。雖然 N 的計算成本似乎是線性的,但演算法的真正複雜性取決於 M 如何增加以確保一定的近似質量。論文證明了稀疏 GP 迴歸變分近似到後驗變分近似的 KL 散度的界限,該界限僅依賴於先驗核的協方差運算元的特徵值的衰減。這些邊界證明了直觀的結果,平滑的核、訓練資料集中在一個小區域,允許高質量、非常稀疏的近似。這些邊界證明了用M≤N 進行真正稀疏的非引數推理仍然可以提供可靠的邊際似然估計和點後驗估計。對非共軛機率模型的擴充套件,是未來研究的一個有前景的方向。
二、計算機視覺
計算機視覺(computer vision),顧名思義,是分析、研究讓計算機智慧化的達到類似人類的雙眼“看”的一門研究科學。即對於客觀存在的三維立體化的世界的理解以及識別依靠智慧化的計算機去實現。確切地說,計算機視覺技術就是利用了攝像機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別決策等功能。總之,計算機視覺系統就是建立了能夠在2D 的平面影像或者 3D 的三維立體影像的資料中,以獲取所需要的“資訊”的一個完整的人工智慧系統。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為計算機視覺領域全球學者分佈情況:
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。 從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸;亞洲也有較多的人才分佈,主要集中在我國東部及日韓地區;歐洲的人才主要分佈在歐洲中西部;其他諸如非洲、南美洲等地區的學者非常稀少;計算機視覺領域的人才分佈與各地區的科技、經濟實力情況大體一致。
▲ 計算機視覺領域全球學者分佈
此外,在性別比例方面,計算機視覺中男性學者佔比 91.0%,女性學者佔比9.0%,男性學者佔比遠高於女性學者。
計算機視覺學者的 h-index 分佈如下圖所示,大部分學者的 h-index 分佈在中間區域,其中 h-index 在 20-30 區間的人數最多,有 706 人, 佔比 34.7%,小於 20 的區間人數最少, 有 81 人。
我國專家學者在計算機視覺領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是珠三角和長三角地區,相比之下,內陸地區的人才較為匱乏,這種分佈與區位因素和經濟水平情況不無關係。同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等亞洲國家相比,中國在計算機視覺領域學者數量相對較多。
▲計算機視覺領域中國學者分佈
對本領域的高水平學術會議論文進行挖掘,解讀這些會議在 2018-2019年的部分代表性工作。 會議具體包括:
IEEE Conference on Computer Vision and Pattern Recognition
European Conference on Computer Vision
論文題目: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文題目:具有空洞分離卷積的編碼–解碼器用於語義影像分割
論文作者: Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff,Hartwig Adam
論文出處: Proceedings of the European conference on computer vision (ECCV). 2018:801-818.
論文地址: %2F978-3-030-01234-2_49
研究問題:
語義分割是計算機視覺中一項基本且重要的研究內容, 它是為影像中的每個畫素分配語義標籤。 在深度學習語義分割任務中經常會使用空間金字塔池化和編碼–解碼器結構。空間金字塔池化可以透過不同解析度的池化特徵捕捉豐富的上下文資訊,但網路中具有步進操作的池化或卷積會導致與物件邊界有關的詳細資訊丟失。這可以透過空洞卷積提取更密集的特徵圖來緩解, 但大大增加了計算資源的消耗。而編碼-解碼器結構則可以透過逐漸恢復空間資訊來捕獲更清晰的物件邊界。透過組合兩種方法的優點,提出新的模型—DeepLabv3+。
近年來,巨量資料的不斷湧現與計算能力的快速提升,給以非結構化視覺資料為研究物件的計算機視覺帶來了巨大的發展機遇與挑戰性難題,計算機視覺也因此成為學術界和工業界公認的前瞻性研究領域,部分研究成果已實際應用,催生出人臉識別、智慧影片監控等多個極具顯示度的商業化應用。
近兩年大多數研究都集中在深度學習、檢測和分類以及面部/手勢/姿勢、 3D感測技術等方面。 隨著計算機視覺研究的不斷推進,研究人員開始挑戰更加困難的計算機視覺問題,例如,影像描述、事件推理、場景理解等。單純從影像或影片出發很難解決更加複雜的影像理解任務,一個重要的趨勢是多學科的融合,例如,融合自然語言處理領域的技術來完成影像描述的任務。
影像描述是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,其目標是翻譯一幅圖片為一段描述文字。目前主流框架為基於遞迴神經網路的編碼器解碼器結構其核心思想類似於自然語言機器翻譯。但是,由於遞迴網路不易提取輸入影像和文字的空間以及層次化約束關係,層次化的卷積神經網路以及啟發自認知模型的注意力機制受到關注。如何進一步從認知等多學科汲取知識,構建多模態多層次的描述模型是當前影像描述問題研究的重點。
事件推理目標是識別複雜影片中的事件類別並對其因果關係進行合理的推理和預測。與一般影片分析相比,其難點在於事件影片更加複雜,更加多樣化,而最終目標也更具挑戰性。不同於大規模影像識別任務,事件推理任務受限於訓練資料的規模,還無法構建端到端的事件推理系統。目前主要使用影像深度網路作為影片的特徵提取器,利用多模態特徵融合模型,並利用記憶網路的推理能力,實現對事件的識別和推理認知。當前研究起源於影片的識別和檢測,其方法並未充分考慮事件資料的複雜和多樣性。如何利用影片資料豐富的時空關係以及事件之間的語義相關性,應是今後的關注重點。
場景理解的目的是計算機視覺系統透過分析處理自身所配置的感測器採集的環境感知資料,獲得周圍場景的幾何/拓撲結構、組成要素(人、車及物體等)及其時空變化,並進行語義推理,形成行為決策與運動控制的時間、空間約束。近年來,場景理解已經從一個初期難以實現的目標成為目前幾乎所有先進計算機視覺系統正在不斷尋求新突破的重要研究方向。 利用社會–長短記憶網路(SocialLSTM)實現多個行人之間的狀態聯絡建模,結合各自運動歷史狀態,決策出未來時間內的運動走向。此外神經網路壓縮方向也是是目前深度學習研究的一個熱門的方向,其主要的研究技術有壓縮,蒸餾,網路架構搜尋,量化等。
綜上所述,視覺的發展需要設計新的模型,它們需要能考慮到空間和時間資訊;弱監督訓練如果能做出好的結果,下一步就是自監督學習;需要高質量的人類檢測和影片物件檢測資料集;結合文字和聲音的跨模態整合;在與世界的互動中學習。
三、 知識工程
1994 年圖靈獎獲得者、知識工程的建立者費根鮑姆給出知識工程定義—將知識整合到計算機系統從而完成只有特定領域專家才能完成的複雜任務。在大資料時代,知識工程是從大資料中自動或半自動獲取知識,建立基於知識的系統,以提供網際網路智慧知識服務。大資料對智慧服務的需求,已經從單純的蒐集獲取資訊,轉變為自動化的知識服務。我們需要利用知識工程為大資料新增語義/知識,使資料產生智慧(Smart Data),完成從資料到資訊到知識,最終到智慧應用的轉變過程,從而實現對大資料的洞察、提供使用者關心問題的答案、為決策提供支援、改進使用者體驗等目標。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為知識工程領域全球學者分佈情況:
▲知識工程領域全球學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。 從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸; 歐洲及亞洲東部也有較多的人才分佈;其他諸如非洲、南美洲等地區的學者非常稀少; 知識工程領域的人才分佈與各地區的科技、經濟實力情況大體一致。
此外, 在性別比例方面,知識工程領域中男性學者佔比 89.7%,女性學者佔比 10.6%,男性學者佔比遠高於女性學者。
知識工程領域學者的 h-index 分佈如下圖所示,大部分學者的 h-index 分佈在中低區域,其中 h-index 在 20-30 區間的人數最多,有 783 人, 佔比 38.9%,小於 20 區間的人數最少, 有 90 人。
我國專家學者在知識工程領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是珠三角和長三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等亞洲國家相比,中國在知識工程領域學者數量較多。
▲知識工程領域中國學者分佈
對本領域的高水平學術會議及期刊論文進行挖掘,解讀這些會議和期刊在 2018-2019 年的部分代表性工作。這些會議和期刊包括:
IEEE Transactions on Knowledge and Data Engineering
International Conference on Information and Knowledge Management
論文題目: Convolutional 2D Knowledge Graph Embeddings
中文題目:基於二維卷積的知識圖譜嵌入表示學習
論文作者: Tim Dettmers, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel
論文出處: The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI2018)
論文地址:
研究問題: 知識圖譜的連結預測任務是預測節點之間潛在的關係。傳統的連結預測方法專注於淺的、快速的模型,因為這樣可以擴充套件到大規模的 KG 中。但是淺層模型學習到的特徵比深沉模型少很多,大大限制了模型的效能。解決該問題的方法之一是增加 embedding 的維度,但是會增加模型引數量,不方便擴充套件到大規模 KG中。此外,部分現有資料集中有測試集洩露問題:訓練集中的三元組稍微翻轉一下就可以得到測試集三元組,然後使用基於規則的模型就能達到最佳效能。文章透過構造一個簡單的翻轉來衡量這個問題嚴重性,並清洗了部分資料來解決該問題。
近兩年知識獲取、推理和應用研究取得了顯著的進展,主要表現在如下幾個方面:
1、資源匱乏情況下的知識獲取 。知識圖譜的構建始終是知識圖譜領域的核心問題之一, 近年來除了傳統的有監督的實體、關係、 事件知識獲取的研究外,也湧現了一批在弱資源情況下的知識獲取方法。例如:在集合擴充套件(實體集擴充套件)研究中, Learning to Bootstrap for Entity Set Expansion 使用蒙特卡洛樹搜尋策略的 booststrap 方法有效地提升了實體集擴充套件方法的穩定性,尤其是在與分類體系相關任務的同時最佳化上。 HiExpan:Task-Guided Taxonomy Construction by Hierarchical Tree Expansion 提出一個知識分類體系的擴充套件框架,模型利用弱監督關係抽取模型,從一個小型的上下位關係樹出發,抽取擴充套件的節點並擴充套件成一個更加豐富的上下位體系。 FewRel 2.0:Towards More Challenging Few-Shot Relation Classification 提出了少次學習任務,透過設計少次學習機制,能夠利用從過往資料中學到的泛化知識,結合新型別資料的少量訓練樣本,實現快速遷移學習。 COMET: Commonsense Transformers forAutomatic Knowledge Graph Construction 提出常識 Transformer 架構,將 GPT-2等語言模型與種子知識圖譜相結合,學習其結構和關係,根據圖表徵形成語言模型,從而生成新的知識並將它們新增到種子圖中。
2、 知識圖譜的知識補全和可解釋推理 。傳統的表示學習缺乏可解釋性,知識圖譜推理越來越受到關注, 其中既有使用強化學習方法尋找路徑的方法,也有使用實體鄰居和注意力權重做可解釋性推理方法。 Multi-Hop Knowledge Graph Reasoning with Reward Shaping 是基於多跳推理的知識庫問答方法,基於強化學習擴充套件在知識圖譜的推理路徑, 以獲得問題的 正 確 答 案 。 Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs 提出一種基於注意力機制的特徵嵌入方法,獲取實體鄰近範圍內的實體和關係特徵,引入關係聚類和多跳關係,有效提升了基於多跳推理的知識圖譜補全的效果。 Iteratively Learning Embeddings and Rules for Knowledge Graph Reasoning 研究如何迭代地進行知識表示學習和規則學習,提出的 IterE 模型可以利用學習的規則改進稀疏實體的表示學習,進而提升規則學習和連結預測效果。
3、基於知識圖譜的推薦和對話問答 。將知識圖譜作為輔助資訊引入到推薦系統中可以有效地解決傳統推薦系統存在的稀疏性和冷啟動問題, 近幾年吸引大量研究人員在相關工作。 隨著圖卷積神經網路, 圖注意力機制等技術的逐漸興起, 基於圖表示學習的推薦模型達到了更高的表現效果,併為推薦系統的可解釋性提供了幫助。 KGAT: Knowledge Graph Attention Network for Recommendation 利用知識圖譜中商品之間的關係,訓練了一個端到端的含注意力機制的模型,用於提高推薦系統的能力。 AKUPM: Attention-Enhanced Knowledge-Aware User Preference Model for Recommendation 使用注意力模型,利用知識圖譜對使用者進行建模,顯著提升了推薦系統的效果。Reinforcement Knowledge Graph Reasoning for Explainable Recommendation 結合強化學習的框架和知識圖譜推理來提供對推薦結果的解釋。 在對話問答方面, 以前對話生成的資訊源是文字與對話記錄, 但如果遇到詞表之外的( Out-ofVocabulary) 的詞,模型往往難以生成合適的、有資訊量的回覆,而會產生一些低質量的、模稜兩可的回覆。 Commonsense Knowledge Aware Conversation Generation with Graph 提出一種基於常識知識圖譜的對話模型 CCM 來理解對話,產生資訊豐富且合適的回覆。
四、自然語言處理
自然語言是指漢語、英語、法語等人們日常使用的語言,是人類社會發展演變而來的語言,而不是人造的語言,它是人類學習生活的重要工具。概括說來,自然語言是指人類社會約定俗成的,區別於如程式設計的語言的人工語言。在整個人類歷史上以語言文字形式記載和流傳的知識佔到知識總量的 80%以上。就計算機應用而言,據統計,用於數學計算的僅佔 10%,用於過程控制的不到 5%,其餘 85%左右都是用於語言文字的資訊處理。
處理包含理解、轉化、生成等過程。自然語言處理,是指用計算機對自然語言的形、音、義等資訊進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。實現人機間的資訊交流,是人工智慧、電腦科學和語言學所共同關注的重要問題。自然語言處理的具體表現形式包括機器翻譯、文字摘要、文字分類、文字校對、資訊抽取、語音合成、語音識別等。可以說,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程,包括自然語言理解和自然語言生成。自然語言理解是指計算機能夠理解自然語言文字的意義,自然語言生成則是指能以自然語言文字來表達給定的意圖。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為自然語言處理領域全球學者分佈情況:
▲自然語言處理領域學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。 從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸;歐洲也有較多的人才分佈,主要集中在歐洲中西部;亞洲的人才主要分佈在我國東部及日韓地區;其他諸如非洲、南美洲等地區的學者非常稀少;自然語言處理領域的人才分佈與各地區的科技、經濟實力情況大體一致。此外, 在性別比例方面,自然語言處理領域中男性學者佔比 89.3%,女性學者佔比 10.7%,男性學者佔比遠高於女性學者。
我國專家學者在自然語言處理領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等亞洲國家相比,中國在自然語言處理領域學者數量較多。
▲自然語言處理領域中國學者分佈
2019自然語言處理代表性文章是:
論文題目: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
中文題目: BERT: 語言理解的深層雙向轉換器的預訓練
論文作者: Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova
論文出處: In Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics.
論文地址:
文章介紹一種新的語言表示模型 BERT(Bidirectional Encoder Representations from Transformers),透過聯合上下文資訊從未標記文字中預訓練深層雙向表示形式,只需一個額外的輸出層,就可以對預訓練模型進行調整,在不需要對特定任務的體系結構進行大量修改的前提下,在多種語言相關任務上獲得。
近年來,預訓練語言模型在自然語言處理領域有了重要進展。 預訓練模型指的是首先在大規模無監督的語料上進行長時間的無監督或者是自監督的預先訓練(pre-training),獲得通用的語言建模和表示能力。之後在應用到實際任務上時對模型不需要做大的改動,只需要在原有語言表示模型上增加針對特定任務獲得輸出結果的輸出層,並使用任務語料對模型進行少許訓練即可,這一步驟被稱作微調(fine tuning)。
自 ELMo、 GPT、 BERT 等一系列預訓練語言表示模型(Pre-trained Language Representation Model)出現以來,預訓練模型在絕大多數自然語言處理任務上都展現出了遠遠超過傳統模型的效果,受到越來越多的關注,是 NLP領域近年來最大的突破之一,是自然語言處理領域的最重要進展。
BERT(Bidirectional Encoder Representation from Transformer)是 Google AI於 NAACL2019 提出的一個預訓練語言模型。 BERT 的創新點是提出了有效的無監督預訓練任務,從而使得模型能夠從無標註語料中獲得通用的語言建模能力。模型的部分細節在前文的論文解讀中已經給出,不再贅述。
BERT 之後湧現了許多對其進行擴充套件的模型, 包括: 跨語言預訓練的 XLM 和 UDify, 跨模態預訓練的模型, 融合知識圖譜的 ERNIE, 將seq2seq 等語言生成任務整合入 BERT 類模型的 MASS, UniLM 等。其中幾個重要的進展包括:
(1) XLNet 使用 Transformer-XL 替代了 Transformer 作為基礎模型,擁有編碼超長序列的能力。 XLNet 提出了一個新的預訓練語言任務: Permutation LanguageModeling(排列語言模型),模型將句子內的詞語打亂順序,從而使得預測當前詞語時可以利用雙向資訊。 XLNet 相對 BERT 也使用了更多的語料。
(2) RoBERTa 採用了與 BERT 具有相同的模型結構,同樣採用了遮蔽語言模型任務進行預訓練,但捨棄了 BERT 中下句預測模型。此外, RoBERTa 採用了更大規模的資料和更魯棒的最佳化方法,從而取得了更好的表現。
(3) ALBERT 模型針對 BERT 引數量過大難以訓練的問題做了最佳化,一是對詞向量矩陣做分解,二是在層與層之間共享引數。此外, ALBERT 將下句預測模型替換為句序預測任務,即給定一些句子預測它們的排列順序。
五、 語音識別
語音識別是讓機器識別和理解說話人語音訊號內容的新興學科,目的是將語音訊號轉變為文字字元或者命令的智慧技術,利用計算機理解講話人的語義內容,使其聽懂人類的語音,從而判斷說話人的意圖,是一種非常自然和有效的人機交流方式。它是一門綜合學科,與很多學科緊密相連,比如語言學、訊號處理、電腦科學、心理和生理學等。
語音識別首先要對採集的語音訊號進行預處理,然後利用相關的語音訊號處理方法計算語音的聲學引數,提取相應的特徵引數,最後根據提取的特徵引數進行語音識別。總體上,語音識別包含兩個階段:第一個階段是學習和訓練,即提取語音庫中語音樣本的特徵引數作為訓練資料,合理設定模型引數的初始值,對模型各個引數進行重估,使識別系統具有最佳的識別效果;第二個階段就是識別,將待識別語音訊號的特徵根據一定的準則與訓練好的模板庫進行比較,最後透過一定的識別演算法得出識別結果。顯然識別結果的好壞與模板庫是否準確、模型引數的好壞以及特徵引數的選擇都有直接的關係。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為語音識別領域全球學者分佈情況:
▲語音識別領域全球學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。 從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸;亞洲也有較多的人才分佈,主要在我國東部及日韓地區;歐洲的人才主要集中在歐洲中西部;其他諸如非洲、南美洲等地區的學者非常稀少;語音識別領域的人才分佈與各地區的科技、經濟實力情況大體一致。
我國專家學者在語音識別領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等亞洲國家相比,中國在語音識別領域學者數量較多且有一定的優勢。
▲ 語音識別領域中國學者分佈
2019代表論文:
論文題目: X-Vectors: Robust DNN Embeddings for Speaker Recognition
中文題目: X 向量:用於說話人識別的魯棒 DNN 嵌入
論文作者: David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey and Sanjeev Khudanpur. X-Vectors: Robust DNN Embeddings for Speaker Recognition.
論文出處: 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)
論文地址:
研究問題: 捕捉說話者特徵是語音識別領域具有重大意義的研究內容。 大多數說話人識別系統都是基於 i-vectors 來實現的。 標準的基於 i-vectors 的方法由通用背景模型(UBM)和大型投影矩陣 T 組成,該模型以無監督方式來學習。在早期的系統中,神經網路經訓練後,被用來分離說話者,從網路中提取幀級表示, 並將其用作高斯說話者模型的特徵。近年來, 使用深度神經網路(DNN)捕獲說話者特徵是當前非常活躍的研究領域。 DNN 嵌入效能也隨著訓練資料量的增加而高度擴充套件。
隨著人工智慧的迅速發展,語音識別的技術越來越成為國內外研究機構的焦點。人們致力於使機器能夠聽懂人類的話語指令,並希望透過語音實現對機器的控制。作為一項人機互動的關鍵技術,語音識別在過去的幾十年裡取得了飛速的發展,在研究和探索過程中針對語音識別的各部流程進行了各種各樣的嘗試和改造,以期發現更好的方法來完成語音識別流程中的各個步驟,以此來促進在不同環境下語音識別的效率和準確率。研究人員從最簡單的非常小詞彙量的閱讀式的語音識別問題開始,逐漸轉向越來越複雜的問題。
近年來智慧語音進入了快速增長期,語音識別作為語音領域的重要分支獲得了廣泛的關注,如何提高聲學建模能力和如何進行端到端的聯合最佳化是語音識別領域中的重要課題。
隨著人工智慧的迅速發展,語音識別的技術越來越成為國內外研究機構的焦點。人們致力於使機器能夠聽懂人類的話語指令,並希望透過語音實現對機器的控制。作為一項人機互動的關鍵技術,語音識別在過去的幾十年裡取得了飛速的發展,在研究和探索過程中針對語音識別的各部流程進行了各種各樣的嘗試和改造,以期發現更好的方法來完成語音識別流程中的各個步驟,以此來促進在不同環境下語音識別的效率和準確率。研究人員從最簡單的非常小詞彙量的閱讀式的語音識別問題開始,逐漸轉向越來越複雜的問題。
近年來智慧語音進入了快速增長期,語音識別作為語音領域的重要分支獲得了廣泛的關注,如何提高聲學建模能力和如何進行端到端的聯合最佳化是語音識別領域中的重要課題。
語音識別經歷了從 2012 年最開始的 DNN 的引入時的 Hybrid HMM 結構,再到 2015 年開始吸引大家研究興趣的 CTC 演算法,而後到 2018 年的 Attention 相關結構的研究熱點。 Attention 相關演算法在語音識別或者說話人識別研究的文章中出現頻率極高。從最開始 Attention,到 Listen-Attend-Spell,再到 Self-Attention(或者 Transformer),在不同的文章被作者多次介紹和分析,頻繁出現在了相關文章的 Introduction 環節中。在 Attention 結構下,依然還有很多內容需要研究者們進一步地探索:例如在一些情況下 Hybrid 結構依然能夠得到 State-of-the-art 的結果,以及語音資料庫規模和 Attention 模型效能之間的關係。
在近兩年的研究中, 端到端語音識別仍然是 ASR( Automatic SpeechRecognition)研究的一大熱點,正如上文提到的,基於 Attention 機制的識別系統已經成為了語音技術研究主流。同時,隨著端到端語音識別框架日益完善,研究者們對端到端模型的訓練和設計更加的關注。 遠場語音識別(far-field ASR),模型結構(ASR network architecture),模型訓練(model training for ASR),跨語種或者多語種語音識別(cross-lingual and multi-lingual ASR)以及一些端到端語音識別(end-to-end ASR)成為研究熱點。
在語音合成方面,高音質語音生成演算法及 Voice conversion 是近兩年研究者關注的兩大熱點, Voice Conversion 方向的研究重點主要集中在基於 GAN 的方法上。 在語言模型方面(Language Model)的研究熱點主要包括 NLP 模型的遷移,低頻單詞的表示,以及深層 Transformer 等。
在說話人識別方面,說話人資訊,特別是說話人識別及切分,正被越來越多的研究者所重視。 目前 Attention 在說話人方面更類似一種 Time Pooling,比Average Pooling 及 Stats Pooling 更能捕捉對說話人資訊更重要的資訊,從而帶來效能提升。說話人識別技術經歷深度學習帶來的效能飛躍後,在模型結構、損失函式等方面的探討已經較為成熟,以 TDNN、 ResNet 加上 LMCL、 ArcFace 的主流模型開始不斷重新整理各資料集的效能上限。模型以外的因素逐漸成為制約說話人系統的瓶頸。說話人技術目前也逐漸暴露出與人臉識別同樣的易受攻擊的問題。因此, ASVspoof 這樣的 Challenge 從 2015 年起就開始關注聲紋反作弊問題。相信隨著此類研究的不斷深入,結合聲紋系統的效能提升,聲紋將有望變成我們的“聲音身份證”。
六、 計算機圖形學
國際標準化組織 ISO 將計算機圖形學定義為:計算機圖形學是一門研究透過計算機將資料轉換成圖形,並在專門顯示裝置上顯示的原理方法和技術的學科。它是建立在傳統的圖形學理論、應用數學及電腦科學基礎上的一門邊緣學科。這裡的圖形是指三維圖形的處理。簡單來講,它的主要研究內容是研究如何在計算機中表示圖形,以及利用計算機進行圖形的計算處理和顯示的相關原理和演算法。
在計算機圖形學的開創之初,他主要解決的問題是在計算機中表示三維結合圖形以及如何利用計算機進行圖形的生成處理和顯示的相關原理和演算法,目的是產生令人賞心悅目的真實感影像,這僅僅是狹義的計算機圖形學。隨著近些年的發展,計算機圖形學的內容已經遠遠不止這些,廣義的計算機圖形學研究內容非常廣泛,包括圖形硬體、圖形標準、圖形互動技術、柵格圖形生成演算法、曲線曲面造型、實體造型、真實版圖形的計算、顯示演算法、科學計算視覺化、計算機動畫、虛擬現實、自然景物模擬等等。
計算機圖形學的總體框架可以包括以下幾個部分:數學和演算法基礎、建模、渲染以及人機互動技術。計算機圖形學需要一些基本的數學演算法,例如向量和幾何的變化、幾何建模式的三維空間變化、三維到二維的圖形變換等等。建模是進行圖形描述和計算,由於在多維空間中有各種組合模型,有一些是解析式表達的簡單形體,也有一些隱函式表達的複雜曲線,因此需要進行復雜的建模工作。渲染也叫繪製,指的是模型的視覺實現過程,例如對光照紋理等理論和演算法進行處理,其中也需要大量的計算。互動技術可以說是圖形學互動的重要工具,是計算機圖形學的重要應用。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為計算機圖形學全球學者分佈情況:
▲計算機圖形學領域全球學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。 從該地圖可以看出,美國的人才數量優勢明顯; 歐洲也有較多的人才分佈,主要在歐洲中西部; 亞洲的人才主要集中在我國東部及日韓地區;其他諸如非洲、南美洲等地區的學者非常稀少; 計算機圖形學的人才分佈與各地區的科技、經濟實力情況大體一致。
我國專家學者在計算機圖形領域的分佈如上圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏,這種分佈與區位因素和經濟水平情況不無關係。同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓等地相比,中國在計算機圖形領域學者數量略多但差距較小。
▲計算機圖形學領域中國學者分佈
2019優秀計算機圖形學論文:
論 文 題 目 : A Style-based Generator Architecture for Generative Adversarial Networks
中文題目:基於樣式的生成式對抗網路生成器架構
論文作者: Tero Karras, Samuli Laine, Timo Aila.
論文出處: The IEEE Conference on Computer Vision and Pattern Recognition- CVPR 2019
論文地址:
研究問題: 本文針對自動的無監督的習得影像的高層屬性(譬如人臉對應的身份資訊以及拍攝姿態)以及對於生成的每幅影像產生一些特定的隨機化的變換(譬如臉部瑕疵以及頭髮的細節),生成較為直觀且可控的合成結果進行了研究。透過借鑑風格遷移的思想,提出了一種新的對抗網路中的生成器架構。該架構不僅在傳統的分佈距離的度量上優勢明顯,並且較好地將控制影像變化的隱變數分離出來進行獨立建模。
隨著數字化技術和網際網路的發展,計算機圖形學在許多領域都已經得到了廣泛的應用,如遙感影像分析、多媒體通訊、醫療診斷、機器人視覺等。當前計算機圖形學的研究逐漸向多學科交叉融合方向發展,即有與認知計算、計算器學習、人機互動的融合,也有與大資料分析、視覺化的融合;不僅針對三維數字模型, 而且涵蓋了影像影片, 與計算機視覺深度交叉。計算機圖形學的快速發展,一個潛在的趨勢是不再有明確清晰的主題,更多的體現出方法和技術的創新。
針對近兩年計算機圖形學重要期刊會議的相關論文,對該領域內容熱點研究內容和前沿技術方法進行了綜合分析。目前,熱點研究內容主要集中在自監督學習(Self-Supervised Learning)、全景分割(Panoptic Segmentation) 、網路結構搜尋( Neural Architecture Search) 和生成式對抗網路( Generative AdversarialNetworks) 等方面。
自監督學習研究早期主要集中在代理任務的設計和選取上,怎樣的代理任務才能最好地提取出有益於下游任務的特徵以及為何這些代理任務能夠有效,這些是理論層面上自監督學習仍需要解決的問題。隨著大量圍繞著例項判別代理任務的相關工作的提出,有一些工作將其中的核心思想進行展開提出了所謂對比學習的概念。透過將原來兩個圖片例項特徵間的對比延伸到任意兩個模態間特徵的對比,使得模型學習不同模態間一致的特徵表達並用最大化互資訊作為新的衡量準則。
在已有的工作中,比較典型的代理任務有將圖片分塊然後預測不同分塊間的相對位置或者將分塊打亂後重排得到原圖,以及基於圖片的上下文資訊進行補全和圖片不同顏色通道間的相互預測等。目前在影像與圖形學領域,取得效能突破的方法主要仍侷限在監督學習的框架之下,隨著無標記資料的不斷爆增和模型效能進一步提升的需求,無監督學習將會越來越受到學術界和工業界的重視。而作為目前無監督學習中的一支,自監督學習因其良好的特徵判別能力和對大規模資料擴充套件能力,也將受到更廣泛的關注。
全景分割作為一個統一的任務在 2018 年被提出,它的目標是為影像中的所有畫素點都分配一個語義類別和一個例項編號,從另一個角度來說,全景分割演算法需要預測出影像中每一個畫素點的所屬類別和所屬例項。在全景分割任務的基礎上,近期的進展主要體現在三個方面:(1)從影像整體的角度考慮全景分割,共享網路主幹(backbone)形成設計整體網路結構;(2)考慮影像中不同元素之間的互動,建模物體與語義概念之間的關係;(3)提出可學習模組,解決預測結果層面的衝突。接下來,我們將分別介紹有代表性的工作。全景分割作為一個最近被提出的視覺任務,受到了很大的關注,目前方法也在探討的過程中,具有很大的發展潛力。
目前深度學習的方法在各類影像與圖形分析任務中取得了非常大的成功,伴隨這一成功而來的是對網路結構設計要求的不斷提高。自動化網路設計自然而然地成為了自動化機器學習的下一個目標。早期的相關工作證明了使用強化學習演算法可以發現好的網路架構,但是這些方法在計算過程中需要消耗大量計算資源,因此後續的工作都集中在如何減少計算負擔上。搜尋空間的設計也是一項重要研究熱點,同時,研究人員又拓寬了神經結構搜尋的視野,將多種最佳化目標考慮在內,而不僅僅是減少搜尋時間和提高網路精度。具有代表性的工作如嘗試限制模型引數的數量或類似的方法,以有效地部署在移動裝置上。在此基礎上,還有一些工作將網路結構搜尋技術擴充套件到搜尋深度網路相關元件上。
在影像合成方面,近期最引人關注的工作就是生成對抗網路,生成對抗網路由一個生成網路 G 和一個判別網路 D 組成。生成網路 G 和判別網路 D 在訓練階段使用對抗的方式進行學習,生成網路 G 的目標是生成儘可能真實的圖片使得判別網路認為這是一張真實的圖片;而判別網路 D 的任務則是判別合成的影像是真實的還是生成的。在這種兩者對抗的學習過程中,生成 G 學會如何生成真實的圖片。目前在生成對抗網路研究中,條件生成對抗網路、損失函式的改進、模型結構的改進及訓練方法的改進是主要研究方向。
七、 多媒體技術
“多媒體”一詞譯自英文“Multimedia”,而該詞又是由 multiple 和 media 複合而成,核心詞是媒體。媒體(medium)在計算機領域有兩種含義:一是指儲存資訊的實體,如磁碟、光碟、磁帶、半導體儲存器等,中文常譯為媒質;二是指傳遞資訊的載體,如數字、文字、聲音、圖形和影像等,中文譯作媒介,多媒體技術中的媒體是指後者。其實,“媒體”的概念範圍是相當廣泛的。“媒體”有下列五大類:(1)感覺媒體(Perception medium)指的是能使人產生直接感覺的媒體。如聲音、動畫、文字等;(2)表示媒體(Representation medium)指的是為了傳送感覺媒體而人為研究出來的媒體。諸如語言編碼、電報碼、條形碼等等;(3)顯示媒體(Presentation medium)指的是用於通訊中使電訊號和感覺媒體之間產生轉換用的媒體。如鍵盤、滑鼠器、印表機等;(4)儲存媒體(Storage medium)指的是於存放某種媒體的媒體。如紙張、磁帶、磁碟、光碟等;(5)傳輸媒體(Transmission medium)指的是用於傳輸某些媒體的媒體。常用的有如電話線、電纜、光纖等。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為多媒體領域全球學者分佈情況。
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸;亞洲東部也有較多的人才分佈;歐洲的人才主要集中在歐洲中西部;其他諸如非洲、南美洲等地區的學者非常稀少;多媒體領域的人才分佈與各地區的科技、經濟實力情況大體一致。
▲多媒體領域全球學者分佈
我國專家學者在多媒體領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況, 特別是與日韓、東南亞等亞洲國家相比,中國在多媒體領域學者數量較多且有一定的優勢。
▲多媒體領域中國學者分佈
2019優秀論文:
論文題目: Beyond Narrative Description: Generating Poetry from Images by MultiAdversarial Training
中文題目:超越敘事描述:透過多重對抗訓練,從意象中生成詩歌
論文作者: Bei Liu, Jianlong Fu, Makoto P. Kato, Masatoshi Yoshikawa
論文出處: 26th ACM International Conference on Multimedia – ACMMM’18
論文地址:
研究問題:本文主要研究了從影像自動生成詩歌的方法。這項任務涉及多個挑戰,包括從影像中發現詩意線索(例如,從綠色中獲得希望),以及生成滿足影像相關性和語言水平的詩意的詩歌。
近年來,隨著數字化技術的發展,多媒體技術突飛猛進,音影片技術是當前最活躍、發展最迅速的高新技術領域之一。多媒體分析以文字、影像、聲音、影片等多種不同型別媒體的資料為研究物件,主要的研究目的一方面是使計算機具備人類的多媒體(如視、聽)理解能力,另一方面是從多媒體資料中挖掘資訊和知識、幫助人類更好地理解世界。
多媒體技術研究領域包括多媒體資訊處理、多媒體資料壓縮編碼、多媒體內容分析與檢索技術、多媒體互動與整合、多媒體通訊與網路、多媒體內容安全、多媒體系統與虛擬現實等。在近幾年的研究中,多媒體技術呈現出與計算機體系結構、計算機網路、人機互動、資訊保安、社會網路等多學科交叉融合的發展趨勢。
近兩年多媒體領域研究熱點主要集中在大規模影像影片分析、社會媒體研究、多模態人機互動、計算視覺、計算影像、實時影片流化等方面。
由於多媒體資料往往是多種資訊的傳遞媒介(例如一段影片中往往會同時使得文字資訊、視覺資訊和聽覺資訊得到傳播),多模態學習已逐漸發展為多媒體內容分析與理解的主要手段。
在計算影像方面,大規模資料集的構建仍是一個熱點研究方向,尤其語義物件的畫素級標註需求越來越強烈,能夠人機互動標註的過程中不斷學習的協同標註方法得到了廣泛關注。
無監督學習是多媒體資料分析的長遠目標。目前很多領域擁有大量的資料,但是這些資料都是沒有經過標記的。因此除了基本的資料勘探和異常檢測場景,這些資料基本無法使用。近期在使用未標記的資料來改進(標記資料)監督學習過程方面已經取得了許多進展。
此外自動機器學習(AutoML)和元學習(Meta Learning)的最新研究成果及其在多媒體上的應用也逐漸增多。
在影像壓縮處理方面,也有一些研究工作將深度學習用於影像或影片壓縮後處理,並得到了一定的效果。然而,現有工作的一個主要問題是用於後處理的深度網路較為複雜,計算速度慢,不滿足實際應用的需求。如何在處理效果和處理速度之間取得一個折中,是壓縮後處理的一個主要挑戰。
圖神經網路(Graph Neural Network, GNN)在多媒體領域的應用是近兩年的熱點研究方向,應用場景包括:個性化推薦,如基於多模態圖卷積網路(MMGCN)的多模態推薦方法;短影片推薦,如使用基於圖的順序網路進行建模;多影片摘要,如採用圖卷積網路衡量每個影片的重要性和相關性;基於文字的行人搜尋,如使用深度對抗圖注意力卷積網路(A-GANet) 利用文字和視覺場景圖學習聯合特徵空間;影片關係監測,如使用轉移圖神經網路(DoT-GNN) 解決影像外觀變化的問題。
隨著 Mask-RCNN 與 RetinaNet 的發展,物體檢測研究日趨成熟,但即便如此,就應用而言,當前的技術依然存在諸多缺陷,為此,針對現代目標檢測的基本框架(backbone、 head、 scale、 batchsize 與 post-processing),神經網路架構搜尋(NAS)以及細粒度影像分析(FGIA)等 3 個方面的潛在難題成為主要研究內容,尤其是後兩者,將成為未來視覺物體檢測的兩個重要研究維度。
八、 人機互動技術
人機互動(Human-Computer Interaction, HCI), 是人與計算機之間為完成某項任務所進行的資訊交換過程, 是一門研究系統與使用者之間的互動關係的學問。系統可以是各種各樣的機器,也可以是計算機化的系統和軟體。人機互動介面通常是指使用者的可見部分,使用者透過人機互動介面與系統交流, 並進行操作。人機互動技術是計算機使用者介面設計中的重要內容之一, 與認知學、人機工程學、心理學等學科領域有密切的聯絡。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為人機互動領域全球學者分佈情況:
▲人機互動領域全球學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸; 歐洲也有較多的人才分佈; 亞洲的人才主要集中在日韓地區;其他諸如非洲、南美洲等地區的學者非常稀少; 人機互動領域的人才分佈與各地區的科技、經濟實力情況大體一致。
我國專家學者在人機互動領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓等地相比,中國在人機互動領域學者數量較少。
▲人機互動領域中國學者分佈
優秀論文:
論文題目: Guidelines for human-AI interaction
中文題目: 人工智慧互動指南
論文作者: Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Collisson, Jina Suh, Shamsi Iqbal, Paul N. Bennett, Kori Inkpen, Jaime Teevan, Ruth Kikin-Gil, and Eric Horvitz
論文出處: ACM CHI Conference on Human Factors in Computing Systems 2019 (CHI 2019)
論文地址:
研究問題: 人工智慧(AI)領域的快速發展給使用者介面和互動設計帶來了新的機遇和挑戰。雖然人機互動屆對人和 AI 互動的原則原理已經進行了 20 多年的探討,我們仍需要更多的研究和創新來解決人工智慧新技術及其面向人類的應用不斷湧現而帶來的新科學及社會問題。作者提出了 18 條具有通用性的、可適用於多種應用場景的、針對人和 AI 互動的設計指導,指出現有知識的空缺及未來的探索方向。 這份指南不僅為 AI 設計師提供了具體、可操作的建議,還旨在推動使用者體驗和工程開發從業者就設計決策的相關問題展開討論,推動這一領域研究的研究方法:
文章提出了 18 條人工智慧互動設計指導,並進行多輪的例項評估來驗證其有效性,包括透過一個使用者實驗,邀請 48 位設計師以這些設計指導為工具來測試 20 項廣泛使用的有 AI 技術支援的使用者產品。
最近的十年,是人機互動向自然互動蓬勃發展的十年。毋庸置疑,計算機是世紀最偉大的發明,其作用從科學計算工具迅速發展為資訊處理和資訊互動工具,起引領作用的則是人機互動技術的變革,即以滑鼠發明為標誌的圖形使用者介面(Graphical User Interface, GUI)的產生,一改規範命令與計算機互動的命令列介面模式(Command LineInterface, CLI),GUI 提供了普通人與計算機便捷互動的工具和方法,讓計算機從實驗室走進辦公室、走入家庭,十多年前,觸屏技術成為產品技術, GUI 中的滑鼠被人的天然指點(pointing)工具——手指所取代,計算機又變身出手機,成為更多人方便使用的隨身掌上工具。
更少依賴操控工具,發展學習和使用成本更小的自然互動技術,一直是人機互動研究的價值追求,最
近十年,隨著感知和計算技術的進步,自然互動技術創新層出不窮,並能迅速成為新型產品技術, 《麻省理工科技評論》總結和評論人機互動領域的突破技術(breakthroughs),為人機互動技術、未來終端技術的發展建立了一個高階的技術論壇,影響深遠。我把這些突破技術分為 3 大類:支援自然動作的感知技術,面向穿戴的新型終端和基於語音識別的對話互動。
人體動作蘊含豐富的語義,動作互動技術一方面需要感知技術的進步,另一方面需要發現或設計有明確互動語義的動作(gesture,姿態,由於人手的靈巧性,手勢成為主要的互動動作,通常叫做手勢),如今,二維表面上,多指觸控動作在觸屏上已普遍可用,三維空間中,嵌入了深度攝像頭的手持和固定裝置,能比較準確識別人的姿態和動作,做出響應。不同於人臉識別等目標明確的視覺識別任務,動作互動不僅要求視覺識別的準確度,更需要研究基於互動任務的動作表達的自然性與一致性,難以發現和突破,所以,除了動作語義很直白的動作遊戲(body game),三維動作互動尚缺少普遍認知和接受的互動動作語義。而無論二維還是三維,手勢的不可見性,是動作互動的主要難題。
穿戴(wearable)取代手持(handheld)曾是前幾年的一個革命口號,目前看,市場上的確出現了一定規模的新產品,但穿戴仍是補充的地位。穿戴裝置中,手環裝置基本只有健康和活動檢測功能,智慧手錶可以算做創新終端,但作為縮小版的手機,由於互動介面的縮小和操作方式的限制(通常是小介面上雙手參與操作),其承載功能也較手機縮減很多。 VR/ AR(虛擬現實/擴增實境)的一個理想載體是頭戴式裝置,最近幾年,多款智慧眼鏡產品面世,較之前笨重的頭盔輕便了許多,逼真的虛擬場景和準確的現實物件識別資訊都可以清晰呈現在眼前,並在特定領域開拓著增強體驗的應用;然而,智慧眼鏡尚缺少與其三維真實顯示匹配的準確的自然輸入技術,以及從眼手繫結在手機上轉變到眼手分離的眼鏡裝置上時,尚未建立起相應的互動模式。
自然語言對話式互動得益於大資料和智慧技術的進步,多語言的自然語音識別技術在使用者終端上都達到了很高的可用水平,並且,語音識別超越文字輸入方式,成為智慧軟體助理的使能技術,近兩年,更是有基於語音介面的家居產品如雨後春筍般出現, VUI (Voice User Interface,語音使用者介面)已經成為互動術語。然而, VUI 的侷限也是顯而易見的,相對並行模式的視覺通道,序列模式的語音通道的頻寬顯然窄的多,出聲的使用方式在很多場合是不合適的,但作為一種可用的自然互動技術,有效提升了使用者體驗。
人機互動作為終端產品的引領技術的作用已經是產業界的普遍認識,欣喜看到很多種自然互動技術和新型互動終端面世,但 GUI 仍是互動的主導模式。計算無所不在,互動自然高效是發展趨勢,人機互動的研究和開發空間很大,需要綜合地探索自然互動技術的科學原理,建立明確的最佳化目標,結合智慧技術,發展高可用的自然互動技術。
九、 機器人
機器人廣義上包括一切模擬人類行為或思想以及模擬其他生物的機械(如機器狗,機器貓等)。狹義上對機器人的定義還有很多分類法及爭議,有些電腦程式甚至也被稱為機器人(例如爬蟲機器人)。聯合國標準化組織採納了美國機器人協會給機器人下的定義: “一種可程式設計和多功能的操作機;或是為了執行不同的任務而具有可用電腦改變和可程式設計動作的專門系統。一般由執行機構、驅動裝置、檢測裝置和控制系統和複雜機械等組成” 。 機器人是綜合了機械、電子、計算機、感測器、控制技術、人工智慧、仿生學等多種學科的複雜智慧機械。
目前,智慧機器人已成為世界各國的研究熱點之一,成為衡量一國工業化水平的重要標誌。機器人是自動執行工作的機器裝置,因此,它既可以接受人類指揮,又可以執行預先編排的程式,也可以根據以人工智慧技術制定的原則綱領行動。在當代工業中,機器人指能自動執行任務的人造機器裝置,用以取代或協助人類工作,一般會是機電裝置,由計算機程式或電子電路控制。機器人的範圍很廣,可以是自主或是半自主的,從本田技研工業的 ASIMO 或是 TOSY 的 TOPIO等擬人機器人到工業機器人,也包括多臺一起動作的群機器人,甚至是奈米機器人。藉由模仿逼真的外觀及自動化的動作,理想中的高 模擬機器人是高階整合控制論、機械電子、計算機與人工智慧、材料學和仿生學的產物。機器人可以作一些重複性高或是危險,人類不願意從事的工作,也可以做一些因為尺寸限制,人類無法作的工作,甚至是像外太空或是深海中,不適人類生存的環境。機器人在越來越多方面可以取代人類,或是在外貌、行為或認知,甚至情感上取代人類。
機器人技術最早應用於工業領域,但隨著機器人技術的發展和各行業需求的提升,在計算機技術、網路技術、 MEMS 技術等新技術發展的推動下,近年來,機器人技術正從傳統的工業製造領域向醫療服務、教育娛樂、勘探勘測、生物工程、救災救援等領域迅速擴充套件,適應不同領域需求的機器人系統被深入研究和開發。過去幾十年,機器人技術的研究與應用,大大推動了人類的工業化和現代化程式,並逐步形成了機器人的產業鏈,使機器人的應用範圍也日趨廣泛。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為機器人領域全球學者分佈情況:
▲機器人領域全球學者分佈
我國專家學者在機器人領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是珠三角和長三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓等地相比,中國在機器人領域學者數量較少。
▲機器人領域中國學者分佈
優秀論文:
論文題目: Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching
中文題目:透過多 affordance 抓取和跨域影像匹配完成雜亂環境下對新物體的撿放操作
論文作者: Andy Zeng, Shuran Song, Kuan-Ting Yu, Elliott Donlon, Francois R. Hogan, Maria Bauza, Daolin Ma, Orion Taylor, Melody Liu, Eudald Romo, Nima Fazeli, Ferran Alet, Nikhil Chavan Dafle, Rachel Holladay, Isabella Morona, Prem Qu Nair, Druck Green, Ian Taylor, Weber Liu, Thomas Funkhouser, Alberto Rodriguez
論文出處: IEEE International Conference on Robotics and Automation, 2018
論文地址: https://ieeexplore.ieee.org/abstract/document/8461044
研究問題: 人類可以在僅掌握少量先驗知識的前提下識別和抓取陌生目標物,這一能力一直是機器人研究的靈感來源,也是很多實際應用的核心。為此,提出一種能在雜亂環境下對新目標物進行識別和撿放操作的機器人系統,整個系統可直接用於新目標物(在測試過程中首次出現),而無需額外的資料收集或重新訓練。
機器人學習 。 在 AI 興起的時代,機器人擁有了一種新型的學習方式:深度強化學習。這一新方式藉助通用化的神經網路表示,處理複雜的感測器輸入,來讓機器人從自己的經驗活動中直接學習行為。相比傳統方式,它解放了工程設計人員們的雙手,不再需要程式設計師們手動設計機器人每一個動作的每一項精確引數。但是,現有的強化學習演算法都還不能夠適用於有複雜系統的機器人,不足以支撐機器人在短時間內就學習到行為,另外在安全性上也難以保障。
針對這種困境, 2019 年初,谷歌 AI 與 UC 伯克利大學合作研發了一種新的強化學習演算法: SAC(Soft ActorCritic)。 SAC 非常適應真實世界中的機器人技能學習,可以在幾個小時內學會解決真實世界的機器人問題,而且它的一套超引數能夠在多種不同的環境中工作,效率十分之高。 SAC 的開發基於最大熵強化學習這個框架。此框架嘗試讓預期回報最大化,同時讓策略的熵最大化。一般而言,熵更高的策略具有更高的隨機性。從直覺上看,這意味著,最大熵強化學習能取得高回報策略中具有最高隨機性的那個策略。 SAC 學習一個隨機策略,這個策略會把狀態對映到動作,也對映到一個能夠估計當前策略目標價值的 Q 函式,這個 Q 函式還能透過逼近動態程式設計來最佳化它們。 SAC 透過這樣的方式,來讓經過熵強化的回報最大化。此過程中,目標會被看作一個絕對真的方法,來匯出更好的強化學習演算法,它們有足夠高的樣本效率,且表現穩定,完全可以應用到真實世界的機器人學習中去。
機器人應用 。 2019 年 6 月,亞馬遜在 MARS 人工智慧大會上最新發布的倉庫機器人Pegasus,該機器人已正式加入亞馬遜 Kiva 機器人行列。 Pegasus 是一種新型包裹分揀機器人,外觀上看, Pegasus 機器人十分類似亞馬遜既有的 Kiva 機器人, 外觀還是橙色不變, 2 英尺高, 3 英尺寬,約相當於一個手提包的大小。 Pegasus 機器人更像是對原有 Kiva 機器人的改良版,在原有機器人底座上增加了一個載貨平臺+皮帶傳送帶對各個包裹進行分類和移動,有助於最大限度地減少包裹損壞並縮短交貨時間。 Pegasus 機器人可以自主將右側盒子放在正確的位置。倉庫作業人員將包裹掃描完放到 Pegasus 機器人上, Pegasus 機器人載著包裹到指定地點。
機器人配備的攝像機可以感知任何意外障礙。到了指定地點,機器人載貨平臺上的傳送帶將包裝從機器人上移開,然後包裹沿著滑槽向下移動,準備送出。機器人在大約 2 分鐘內完成整個包裹運送過程。據亞馬遜介紹, Pegasus 機器人具有與 Kiva 機器人驅動器相同的容量。 Pegasus 機器人目前已經在在丹佛分揀中心上線的六個多月,行駛約 200 萬英里,經測試,它能將當前系統的包裹分揀錯誤率大幅降低 50%。本次 MARS 人工智慧大會上,除了推出 Pegasus 機器人,亞馬遜還發布了一種大型模組化運輸機器人 Xanthus。依據上方安裝的模組,執行多種不同的任務 Xanthus 擁有透過改變上方配備,勝任不同任務的能力。相較過 去使用的系統, Xanthus 不僅用途更為廣泛,體積也只有前輩的 1/3,成本甚至直接砍半。
機器人平臺 。 如何將機器人技術落地、實踐商業化一直是備受關注的問題。波士頓動力的策略是要希望其成為平臺公司,透過授權或開源方式, 使其技術能被廣為被使用。2018 年這個傳言似乎得到了證實,在《連線》雜誌舉辦的峰會上,波士頓動力創始人暨執行長 Marc Raibert 指出,他們的定位是成為平臺公司,讓生態圈包括第三方夥伴、客戶,一起來找到技術真正適合使用的地方。 Marc Raibert 表示波士頓動力在開發機器人時是以“平臺”的概念來出發,客戶可以增加硬體,例如手臂及其他元件,“當然,我們也可以針對單一領域打造一個有特殊應用的機器人方案,但我們不知道哪一個領域合適,所以我們從平臺的角度出發,希望生態圈幫我們一起來找到技術真正可落地之處”、“我們要打造的是‘通用用途的平臺’(general purpose platform),讓第三方夥伴、客戶、波士頓動力自己的應用開發團隊,可以一同來設計產品以符合定製化需求。
十、 資料庫技術
資料庫是按一定的結構和規則組織起來的相關資料的集合, 是綜合各使用者資料形成的資料集合,是存放資料的倉庫(我國資料庫的發展現狀與趨勢—陳黎)。隨著計算機技術與網路通訊技術的快速發展,資料庫技術已經成為當今資訊社會中對大量資料進行組織與管理的重要技術手段,是網路資訊化管理系統的基礎。目前,新一代資料庫系統不僅保持和繼承了傳統資料庫系統的各項功能,支援知識管理、資料管理和物件管理,而且還對其它應用系統開放,在網路上支援標準網路協議,具有良好的可連線性、可移植性、可互操作性和可擴充套件性。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為資料庫領域全球學者分佈情況:
▲資料庫領域全球學者分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。從該地圖可以看出,美國的人才數量優勢明顯且主要分佈在其東西海岸;歐洲也有較多的人才分佈;亞洲的人才主要集中在我國東部;其他諸如非洲、南美洲等地區的學者非常稀少;資料庫領域的人才分佈與各地區的科技、經濟實力情況大體一致。
我國專家學者在資料庫領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是珠三角和長三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等地相比,中國在資料庫領域學者數量較多但差距不大。
▲資料庫領域中國學者分佈
優秀論文:
論文題目: Self-Driving Database Management Systems
中文題目: 自動駕駛的資料庫管理系統
論文作者: Andrew Pavlo, Gustavo Angulo, Joy Arulraj and, Haibin Lin, Jiexi Lin, Lin Ma, et al.
論文出處: 7th Biennial Conference on Innovative Data Systems Research (CIDR) – CIDR 2017
論文地址:
研究問題: 在過去的二十年中,研究人員和資料庫系統供應商都嘗試開發了各式輔助工具以在資料庫系統的調優和物理設計等各個方面協助資料庫管理員( Database Administrator, DBA)。但是,大多數的工作還是不足夠完善的,因為它們仍然需要 DBA 對資料庫的任何更改做出最終決定,並且是在問題發生後解決問題的反應性措施。尤其是隨著雲資料庫的發展,不需要人工干預的 DBMS 就成為了一個迫切的需求,於是能“自動駕駛”的資料庫管理系統(Database Management System, DBMS)便成為了必然的選擇。真正地能“自動駕駛”的資料庫管理系統所需要的是一種為自治操作而設計的新體系結構。與早期的各種 DBMS 不同的是,該類系統的所有方面都由整合的計劃元件控制,該元件不僅可以針對當前工作負載(Workload)最佳化系統,而且還能預測未來的工作負載的變化趨勢,以便系統可以相應地進行準備。這樣, DBMS 可以支援所有以前的調優技術,而無需人工確定正確的方式和適當的時間來部署它們。
步入大資料時代,面對 PB 乃至 EB 級海量資料、複雜多變的應用場景、異構的硬體架構和層次不齊的使用者使用水平,傳統的資料管理技術難以滿足新時代的需求。例如,一個雲資料庫系統通常具有百萬級別的資料庫例項,每一個資料庫例項通常都有各自的應用場景、不同使用者的使用水平往往也有著比較大的差別,資料庫中傳統的啟發式演算法在這些場景中難以取得較好的效果,而有經驗的資料庫管理員也難以直接干預和最佳化數量如此之多的資料庫例項。
近年來,以機器學習為代表的人工智慧技術因其強大的學習和適應能力,在多個領域都大放異彩。同樣的,在資料管理領域,傳統機器學習和深度學習等技術也有著巨大的潛力和廣闊的應用前景。例如,資料庫系統所積累的海量歷史查詢記錄可以為基於學習的資料庫智慧最佳化技術提供資料支撐。一方面,我們可以構建包含查詢、檢視或資料庫狀態的有標籤資料,比如,在檢視選擇問題中,這個標籤是指每個候選檢視是否被選中。
另一方面,在缺乏標籤資料的時候,我們可以利用(深度)強化學習技術探索性地(從選擇結果的反饋中學習)選擇最優的候選檢視。此外,人工智慧技術讓自治資料庫的自動決策管理、自動調優和自動組裝等需求成為可能。在以深度學習為代表的人工智慧技術的加持下,讓資料庫朝著更加智慧的方向發展,資料管理技術也隨之智慧化。近些年湧現的自治資料庫和人工智慧原生資料庫(如 SageDB, XuanyuanDB),透過融合人工智慧技術到資料庫系統的各個模組(最佳化器、執行器和儲存引擎等)和資料管理的生命週期,可以大幅度提升資料庫各方面的效能,為下一代資料庫和人工智慧技術的發展指明瞭一個方向。
在另外一方面,資料管理技術也能以基礎設施的身份來支援人工智慧的發展。目前的人工智慧在落地過程中還面臨著一些挑戰性。例如,人工智慧演算法訓練效率較低,現有人工智慧系統缺少執行最佳化技術(如大規模快取、資料分塊分割槽、索引等),不僅會導致大量的計算、儲存資源浪費,而且會提高程式異常的發生率(如記憶體溢位、程式阻塞等),嚴重影響單個任務的執行效率。其次,人工智慧技術往往依賴高質量的訓練資料,現實中的訓練資料往往是包含很多缺失值、異常值和別名等型別的錯誤,這些錯誤通常會影響訓練效率,對模型的質量造成干擾。面向人工智慧的資料管理技術可以為解決上述挑戰做出貢獻。
十一、 視覺化技術
視覺化技術是把各種不同型別的資料轉化為可視的表示形式,並獲得對資料更深層次認識的過程。視覺化將複雜的資訊以影像的形式呈現出來,讓這些資訊更容易、快速地被人理解,因此,它也是一種放大人類感知的圖形化表示方法。
視覺化技術充分利用計算機圖形學、影像處理、使用者介面、人機互動等技術,以人們慣於接受的表格、圖形、影像等形式,並輔以資訊處理技術(例如: 資料探勘、機器學習等)將複雜的客觀事物進行圖形化展現,使其便於人們的記憶和理解。視覺化為人類與計算機這兩個資訊處理系統之間提供了一個介面,對於資訊的處理和表達方式有其獨有的優勢,其特點可總結為可視性、互動性和多維性。
目前,資料視覺化針對不同的資料型別及研究方向,可以進一步劃分為科學資料視覺化、資訊視覺化,以及可視分析學三個子領域。這三個領域既緊密相關又分別專注於不同型別的資料及視覺化問題。具體而言,科學視覺化是針對科學資料的視覺化展現技術。科學資料,例如,醫療過程中由 CT 掃描生成的影像資料、風洞實驗而產生的流體資料、以及分子的化學結構等,是對物理世界的客觀描述,往往是透過科學儀器而測量得到的資料。
這類資料的視覺化主要關注於如何以清晰直觀的方式展現資料所刻畫的真實物理狀態。因此,科學視覺化往往呈現的是三維場景下的時空資訊。資訊視覺化注重於如何以圖形的方式直觀展現抽象資料,它涉及到了對人類圖形認知系統的研究。在這裡,抽象資料(例如: 圖形資料、多維度資料、文字資料等)往往是對各應用領域所產生資料的高層次概括,記錄的是抽象化的資訊。針對這樣的資料,資訊視覺化著眼於多維度資訊的可視編碼技術,即如何以低維度(2D) 的圖形符號來直觀展現並揭示抽象資料中所隱藏的潛在規律與模式;可視分析學是多領域技術結合的產物,旨在結合並利用資訊視覺化、人機互動、以及資料探勘領域的相關技術,將人的判斷與反饋作為資料分析中重要的一環,從而達到精準資料分析、推理及判斷的目的。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為視覺化領域全球學者分佈情況:
▲ 視覺化領域全球學者分佈
我國專家學者在視覺化領域的分佈如下圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏, 這種分佈與區位因素和經濟水平情況不無關係。 同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓等地相比,中國在視覺化領域學者數量較多但差距較小 。
▲視覺化領域中國學者分佈
優秀論文:
論文題目: Visual Exploration of Big Spatio-Temporal Urban Data: A Study of NewYork City Taxi Trips
中文題目:城市大時空資料的視覺化研究:紐約市計程車出行研究
論文作者: Nivan Ferreira, Jorge Poco, Huy T. Vo, Juliana Freire, Cláudio T. Silva
論文出處: IEEE Transactions on Visualization and Computer Graphics, 2013
論文地址:
研究問題: 計程車資料是城市中極具價值的資訊,收集並利用好計程車的資料可以有效的幫助決策者和社會學家理解城市的狀況並做出正確的決策。但高效的探索計程車資料其實是一個充滿挑戰的事情。計程車資料十分複雜且龐大,包含了時間和空間上的資訊,很難快速查詢並進行比較。在採訪城市規劃和交通專家後,該文作者瞭解到,他們目前沒有合適的工具來完成分析。一些簡單的工具和語言只能分析一些小規模的資料,能分析的資料比較片面;而複雜一些的工具,雖然可以對大資料進行分析,則需要掌握高階的資料查詢語言,對分析人員而言很困難。所以該文提出了一種支援在起點–終點(OD)資料上進行復雜時空視覺化查詢的模型。
視覺化語法及工具 。 隨著大資料時代的到來,視覺化已經成為一個必不可少的工具。現有的視覺化軟體及工具,可用於設計視覺化應用程式和構建視覺化分析系統,有助於視覺化的廣泛使用。為了減少製作視覺化的技術負擔,一些視覺化工具提供了宣告性語法,其中包括了 Vega-Lite 和 P5。宣告性語法可以將視覺化設計與執行細節分離,這使分析人員可以專注於特定於應用程式的設計決策。同時 Vega-Lite 和 P5都提供了易於使用的程式設計介面。
Vega-Lite 是一套能夠快速構建互動式視覺化的高階語法,它是基於 Vega 和 D3 等底層視覺化語法的上層封裝。相比於其它比較底層視覺化語法, Vega-Lite 可以透過幾行 JSON 配置程式碼即可完成一些通用的圖表建立,而相反地,想要用 D3 等去構建一個基礎的統計圖表則可能需要編寫多行程式碼,如果涉及到互動的話程式碼量更是會大大增加。 P5 是一個基於 Web的視覺化工具包,它能整合了 GPU 計算與漸進式處理,並且提供了帶有宣告性語法的 API,可用於指定漸進式資料轉換和視覺化操作,從而幫助分析人員構建融合了高效能運算和漸進式分析工作流的視覺化系統。
視覺化與故事敘述 。 故事敘述是視覺化研究的一個重要且新興的方向。 與傳統的、 強調資料分析的視覺化思路不同,故事敘述強調資料的傳達與溝通, 強調資料與人(且通常是普通人)的連結。在此思路下, 研究者們致力於探究: 何種資料呈現與講述技巧,可以使資料具備吸引力、 記憶度;資料故事的創作流程是怎樣的,存在哪些需求和痛點;以及如何自動生成資料故事等等。 用講故事的方式來呈現視覺化,本質上是體現了一種人本導向,即以人的需求出發,提取和分析資料,並以對人友好的方式,將資料中的資訊傳達出去。隨著我們的社會越來越依賴資料賦能,更好地構建資料與人的關係,將成為一條必經之路。敘述視覺化的應用,不僅在於那些以“敘述”為主業的領域,如新聞媒體、廣告宣傳,更在於需要用資料來影響人、說服人、打動人的各行各業。對於研究者來說,相關的研究方向則包括視覺化設計、人機互動、認知與感知、智慧生成與推薦等等。
視覺化的自動生成 。 資料視覺化領域中大多數的視覺化生成系統往往是基於資料的互動式探索,也包括商業領域的知名的視覺化工具 Tableau 和 PowerBI。而近些年來,為了避免繁雜的資料分析步驟並提升使用者效率,視覺化的自動生成逐漸成為行業領域中的研究熱點。一系列基於規則和機器學習的推薦方法層出不窮,在自動生成視覺化的最新研究中,研究者希望在保證準確表現資料的同時,也能將視覺設計的因素考慮在內,確保視覺化的美觀性和資料的表現力。
例如, DataShot 和 Text-toViz,分別從資料和自然語言兩個角度去自動生成富有設計感的資料視覺化,前者直接從表格資料生成資訊簡報,後者根據使用者的自然語言輸入生成對應的資訊圖。製作一個有效且美觀的資料視覺化往往需要跨專業領域的技能,尤其是需要同時具備資料分析能力和平面設計能力,而這對於一個沒有專業訓練的普通使用者來說是比較困難的。 DataShot 和 Text-to-Viz 等前沿的技術研究均透過自動化的方法從資料洞察和設計美學兩個方面幫助使用者生成視覺化,降低使用者製作視覺化的門檻,並有效提高生產效率。
可解釋性深度學習 。 LSTMVis 是一個遞迴神經網路的視覺化分析工具,它著重於對 RNNs 中的隱藏特徵進行視覺化分析。 LSTMVis 結合了一個基於時間序列的選擇介面和一個互動式的匹配工具來搜尋大型資料集中相似的隱藏狀態模式。系統的主要功能是理解模型中動態變化的隱藏狀態。該系統允許使用者選擇一個假設的輸入範圍來關注區域性的改變,將這些狀態改變與大型資料集中類似的模式進行匹配,並將這些選擇出來的模式進行對齊分析。
RNNs 在序列建模方面有著重要的作用,但是模型中的隱藏層含義很難被解釋清楚。對於一個完成訓練的 RNN 模型,分析人員並不清楚這個模型是如何理解序列中不同節點之間的關係的。 LSTMVis 能夠幫助使用者互動式地探索 RNN 模型複雜的網路結構,並將模型中抽象表示的隱藏層資訊與人類可理解的原始輸入進行關聯。
隨著 21 世紀大資料的興起和發展,大資料視覺化廣泛應用於各個領域,本節重點介紹其中的社交媒體視覺化、醫療資訊視覺化和體育資料視覺化。 社交媒體,比如最近幾年非常流行的 Twitter、 Facebook、微博。它們可以作為強大的線上交流平臺,允許數百萬使用者在任何時間、任何地點產生、傳播、共享或交換資訊。這些資訊通常包括多種多媒體內容,如文字、影像和影片。在社交媒體上傳播的大量多媒體資料,涵蓋了全球範圍內大規模和實時發生的社會動態資訊, 這種現象為社交媒體視覺化提供了很多機會。
社交媒體技術層面上的視覺化,主要包括: 基於關鍵字方法的視覺化, 基於主題方法的視覺化和多元方法的視覺化。 現有的研究大多集中於集體行為的視覺化,這類研究的主題包括: 資訊擴散的視覺化,社會競爭與合作的視覺化,人的流動性的視覺化。
社交媒體資料的視覺化分析正在迅速發展,每年都有大量的新方法出現。然而,該領域仍處於起步階段,面臨許多挑戰和懸而未決的問題。許多挑戰不能僅 結合的多學科研究,將帶來處理和理解社交媒體資料會有更強大、更可行的方法和技術。
十二、 資料探勘
資料探勘(Data Mining),是指從大量的資料中自動搜尋隱藏於其中的有著特殊關係性的資料和資訊,並將其轉化為計算機可處理的結構化表示,是知識發現的一個關鍵步驟。資料探勘的廣義觀點:從資料庫中抽取隱含的、以前未知的、具有潛在應用價值的模型或規則等有用知識的複雜過程,是一類深層次的資料分析方法。資料探勘是一門綜合的技術,涉及統計學、資料庫技術和人工智慧技術的綜合,它的最重要的價值在於用資料探勘技術改善預測模型。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為資料探勘領域全球學者分佈情況:
▲資料探勘領域全球人才部分
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。從該地圖可以看出,美國的人才數量遙遙領先且主要分佈於其東西海岸;歐洲、亞洲也有較多的人才分佈;其他諸如非洲、南美洲等地區的學者非常稀少;視覺化領域的人才分佈與各地區的科技、經濟實力情況大體一致。
我國專家學者在資料探勘領域的分佈如上圖所示。透過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是珠三角和長三角地區,相比之下,內陸地區的人才較為匱乏,這種分佈與區位因素和經濟水平情況不無關係。同時,透過觀察中國周邊國家的學者數量情況,特別是與日本、東南亞等亞洲國家相比,中國在資料探勘領域學者數量較多且有一定的優勢。
▲資料探勘領域中國學者分佈
優秀論文: 論文題目: Graph Convolutional Neural Networks for Web-Scale Recommender Systems
中文題目:圖卷積神經網路應用於網路規模推薦系統
論文作者: Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai, William L. Hamilton, and Jure Leskovec.
論文出處: In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’18) .
論文地址:
研究問題: 圖結構資料作為深層神經網路最新研究成果應用於推薦系統基準的最新的指標,傳統的深度學習網路主要針對圖片,語音等歐氏空間內規則型資料,但是現實中存在很多不是歐氏資料, 它們的結構不規則,難以用卷積神經網路對其進行結構資訊的聚合,故將其擴充套件到有數十億使用者的網路級推薦系統是一個巨大的挑戰。
近幾年,我們已經迎來了大資料時代,各大網際網路企業每天都在產生數以億計的資料。各類資料往往都隱含著一些有價值的資訊, 如果人們手動地進行資料分析,往往需要耗費大量的時間。同時,大量未經處理的資料可能會被人們所忽視。資料探勘就是想自動地從大規模的資料中挖掘出有意義的知識或者模式。這裡,我們將資料探勘領域近期的主要發展歸為兩大類:複雜資料探勘、分散式資料探勘。
複雜資料包括序列資料、圖資料等。在序列資料探勘中,基於注意力(Attention)機制的 Transformer 模型表現出了巨大的潛力,在機器翻譯等任務上取得了非常好的效果。隨後, BERT 模型使用雙向 Transformer 透過預訓練方式在各種自然語言處理的任務上都達到了當時最好的結果。在圖資料探勘研究中,網路表示學習仍然是近年來非常熱門的話題。從 DeepWalk 演算法開始,基於隨機遊走的演算法在無監督的表示學習任務中表現良好。 NetMF 演算法將幾種基於隨機遊走的演算法統一寫成了矩陣分解的形式,給網路表示學習演算法提供了理論基礎。圖卷積神經網路是另一種處理圖資料的有效方法,借鑑了圖譜論中的圖卷積並使用圖的拉普拉斯矩陣,在半監督的節點分類任務和圖分類任務中都表現出很好的效果。除此之外,異構網路的表示與挖掘也逐漸被大家所關注。
分散式資料探勘已成為資料探勘領域非常有前途的方向。隨著資料探勘計算成本的增加和資料隱私保護的問題,分散式資料探勘開始備受關注。分散式資料探勘利用分散式站點的資源來降低計算成本並增強資料保密性。由於分散式資料探勘採用了不同的計算方式,傳統的資料探勘技術很難直接應用於分散式資料探勘。目前,資料安全與資料隱私開始被大家所關注。 2018 年 5 月,通用資料保護條例(GDPR)在歐盟正式生效, 這也使得基於隱私保護的分散式資料探勘方法逐漸被研究者所重視。
資料探勘已經被廣泛地應用於各類實際問題,包括金融資料分析、推薦系統等。資料探勘相關研究需要結合實際問題,注重與機器學習、統計學科等的交叉,從大資料中挖掘出有價值的資訊。
十三、 資訊檢索與推薦
R.Baeza-Yates 教授在其著作《現代資訊檢索中 》中指出 ,資訊檢索(Information Retrieval, IR)是電腦科學的一大領域,主要研究如何為使用者訪問他們感興趣的資訊提供各種便利的手段,即:資訊檢索涉及對文件、網頁、聯機目錄、結構化和半結構化記錄及多媒體物件等資訊的表示、儲存、組織和訪問,資訊的表示和組織必須便於使用者訪問他們感興趣的資訊。
在範圍上,資訊檢索的發展已經遠超出了其早期目標,即對文件進行索引並從中尋找有用的文件。如今,資訊檢索的研究包括使用者建模、 Web 搜尋、 文字分析、 系統構架、 使用者介面、 資料視覺化、 過濾和語言處理等技術。
資訊檢索的主要環節包括資訊內容分析與編碼、組成有序的資訊集合以及使用者提問處理和檢索輸出。其中資訊提問與資訊集合的匹配、選擇是整個環節中的重要部分。當使用者向系統輸入查詢時,資訊檢索過程開始,接著使用者查詢與資料庫資訊進行匹配。返回的結果可能是匹配或不匹配查詢,而且結果通常被排名。大多數資訊檢索系統對資料庫中的每個物件與查詢匹配的程度計算數值分數,並根據此值進行排名,然後向使用者顯示排名靠前的物件。
推薦系統(Recommendation System, RS)是指資訊過濾技術,從海量專案(專案是推薦系統所推薦內容的統稱,包括商品、新聞、微博、音樂等產品及服務)中找到使用者感興趣的部分並將其推薦給使用者,這在使用者沒有明確需求或者專案數量過於巨大、凌亂時,能很好地為使用者服務,解決資訊過載問題。
一般推薦系統模型流程通常由 3 個重要的模組組成:使用者特徵收集模組,使用者行為建模與分析模組,推薦與排序模組。推薦系統透過使用者特徵收集模組收集使用者的歷史行為,並使用使用者行為建模和分析模組構建合適的數學模型分析使用者偏好,計算專案相似度等,最後透過推薦與排序模組計算使用者感興趣的專案,並將專案排序後推薦給使用者。
資訊的檢索與推薦都是使用者獲取資訊的手段,無論是在網際網路上,還是線上下的生活場景裡,這兩種方式都大量並存,兩者之間的關係是互補的:搜尋引擎需要使用者主動提供準確的關鍵詞來尋找資訊,因此不能解決使用者的很多其他需求,比如當使用者無法找到準確描述自己需求的關鍵詞時,搜尋引擎就無能為力了。和搜尋引擎一樣,推薦系統也是一種幫助使用者快速發現有用資訊的工具。
與搜尋引擎不同的是,推薦系統不需要使用者提供明確的需求,而是透過分析使用者的歷史行為給使用者的興趣建模,從而主動給使用者推薦能夠滿足他們興趣和需求的資訊。因此,從某種意義上說,推薦系統和搜尋引擎對於使用者來說是兩個互補的工具。搜尋引擎滿足了使用者有明確目的時的主動查詢需求,而推薦系統能夠在使用者沒有明確目的的時候幫助他們發現感興趣的新內容。在實際生活中也有很多運用。
同時,資訊的檢索與推薦也有著一定的區別,可以分為以下幾個方面: 首先是主動與被動的不同。搜尋是一個非常主動的行動,使用者的需求也十分明確,在搜尋引擎提供的結果裡,使用者也能透過瀏覽和點選來明確的判斷是否滿足了使用者需求。然而,推薦系統接受資訊是被動的,需求也都是模糊而不明確的。
學者地圖用於描述特定領域學者的分佈情況,對於進行學者調查、分析各地區競爭力現況尤為重要,下圖為資訊檢索與推薦領域全球學者分佈情況:
▲資訊檢索與推薦領域全球人才分佈
地圖根據學者當前就職機構地理位置進行繪製,其中顏色越深表示學者越集中。從該地圖可以看出,美國的人才數量優勢明顯且主要分佈於其東西海岸;歐洲、亞洲也有較多的人才分佈;其他諸如非洲、南美洲等地區的學者非常稀少;資訊檢索與推薦領域的人才分佈與各地區的科技、經濟實力情況大體一致。 此外,在性別比例方面,資訊檢索與推薦領域中男性學者佔比 90.6%,女性學者佔比9.4%,男性學者佔比遠高於女性學者。
▲資訊檢索與推薦領域中國學者分佈
我國專家學者在資訊檢索與推薦領域的分佈如上圖所示,從中可以發現京津地區在本領域的人才數量最多,其次是長三角和珠三角地區,相比之下,內陸地區的人才較為匱乏,這種分佈與區位因素和經濟水平情況不無關係。同時,透過觀察中國周邊國家的學者數量情況,特別是與日韓、東南亞等地相比,中國在資訊檢索與推薦領域學者數量較多且優勢較大。
優秀論文:
論文題目: Adversarial Personalized Ranking for Recommendation
中文題目:對抗式個性化推薦排名
論文作者: Xiangnan He, Zhankui He, Xiaoyu Du anTat-Seng Chua.
論 文 出 處 : The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval – SIGIR ’18
論文地址:
研究問題: 貝葉斯個性化排名(Bayesian Personalized Ranking, BPR)是一種成對學習的排序方法,用於最佳化個性化排序的推薦模型。它以內隱反饋學習為目標,假定觀察到的互動比未觀察到的互動排在更高的位置。矩陣因子分解( MatrixFactorization, MF)是最基本也是最有效的推薦模型。 MF 將每個使用者和項表示為嵌入向量,透過嵌入向量之間的內積來估計使用者對某一項的偏好程度。在資訊檢索領域,貝葉斯個性化排名訓練的矩陣分解模型(MF-BPR)學習一個與訓練資料相適應的複雜函式,不能很好地泛化,且其魯棒性較差,易受引數的對抗性擾動。因此本文提出了一種新的個性化排名訓練方法-對抗的個性化排名(Adversarial Personalized Ranking, APR)。
隨著網際網路中數字資訊數量的增長,商品、書籍、新文章、歌、電影、研究檔案等日常基礎性事物,其數量和種類填滿了多個資料倉儲和資料庫。蘊含著智慧推薦系統和強大的搜尋引擎的線上商店、線上音樂、線上影片和圖片庫等已成為人們快速尋找資訊的主要方式。此類系統的流行程度和有用性在於它們能夠便捷地顯示幾乎無限的物品資訊。比如, Amazon、 Netflix 等推薦系統嘗試瞭解使用者興趣,並向使用者推薦他們感興趣的商品。儘管這些系統由於使用場景而各不相同,但其尋找使用者感興趣商品的核心機制都是使用者興趣與商品匹配的機制。
為了提高資訊檢索與推薦系統中演算法模型的準確性和可解釋性,研究人員近年來主要關注無偏的線上排序學習模型,以及利用知識資訊增強推薦系統的表現和可解釋性等方面的研究。其中,無偏的線上排序學習模型是指自動利用大規模使用者點選資料訓練搜尋結果的排序模型。使用者點選資料是現代搜尋引擎的重要資料來源,具有成本低廉,並且對以使用者為中心的檢索應用程式(如搜尋排名) 特別有用等優點。
為了充分利用使用者點選資料開發一個無偏的學習排名系統,研究人員試圖消除使用者偏見對排名模型訓練的影響。近年來,一種基於反事實學習和圖形模型的無偏學習排名框架引起了人們的廣泛關注。該框架側重於使用反事實學習直接訓練帶有偏倚點選資料的排名模型。這個無偏的學習排名框架對待點選偏差作為一個反事實的影響和去偏使用者反饋加權每點選與他們的反向傾向加權。它使用傾向性模型來量化點選的偏差,並沒有明確地估計查詢文件與培訓資料的相關性。研究人員從理論上證明,在正確的偏差估計下,在該框架下使用點選資料訓練的排序模型將收斂於使用真實相關訊號訓練的排序模型。
資訊檢索與推薦系統可以為使用者推薦其感興趣的內容並給出個性化的建議。而現在的推薦系統大都著眼於被推薦物件的序列建模,而忽略了它們細粒度的特徵。為了解決以上問題,研究人員提出了多工可解釋推薦模型( Multi-Task Explainable Recommendation, MTER)和知識增強的序列推薦模型(Knowledgeenhanced Sequential Recommender, KSP)。其中, MTER 模型是一個用於可解釋推薦任務的多工學習方法,透過聯合張量分解將使用者、產品、特徵和觀點短語對映到同一向量空間,來從使用者評論中提取產品細粒度的個性化特徵。 KSR 模型提出了利用結合知識庫的記憶網路來增強推薦系統的特徵捕獲能力與解釋性,解決序列化推薦系統不具有解釋性,且無法獲取使用者細粒度特徵的不足。 MTER 和KSR 模型透過對推薦結果的解釋,分析被推薦物件的特徵,可以讓使用者可以對使用哪些推薦結果做出更明智,更準確的決策,從而提高他們的滿意度。
近年來,資訊檢索與推薦領域比較流行的開源平臺主要包括基於深度學習的檢索模型(MatchZoo)、基於 tensorflow 的 learning to rank 模型(TF-Ranking)和 microsoft recommenders。其中, MatchZoo 是由中國科學院計算技術研究所網路資料科學與技術重點實驗室近期釋出的深度文字匹配開源專案。 MatchZoo 是一個 Python 環境下基於 TensorFlow 開發的開源文字匹配工具,使用了 Keras 中的神經網路層,並有資料預處理,模型構建,訓練與評測三大模組組成, 旨在讓大家更加直觀地瞭解深度文字匹配模型的設計、更加便利地比較不同模型的效能差異、更加快捷地開發新型的深度匹配模型。
MatchZoo 提供了基準資料集(TRECMQ 系列資料、 WiKiQA 資料等)進行開發與測試,整合了當前最流行的深度文字匹配的方法(包括 DRMM, MatchPyramid, DUET, MVLSTM, aNMM, ARC-I,ARC-II, DSSM, CDSSM 等演算法的統一實現),旨在為資訊檢索、資料探勘、自然語言處理、機器學習等領域內的研究與開發人員提供便利, 可以應用到的任務場景包括文字檢索,自動問答,複述問題,對話系統等等。
TF-Ranking 是一個可擴充套件的基於 tensorflow 的用於排序的庫,由 google 於2018 年提出。 TF-Ranking 提供了一個統一的框架,其中包括一套最先進的學習排序演算法,並支援成對或列表損失函式、多項評分、排序度量最佳化和無偏學習排序。 TF-Ranking 速度很快並且易於使用,可以建立高質量的排序模型。 統一的框架使機器學習的研究人員、實踐者和愛好者能夠在一個庫中評估和選擇一系列不同的排序模型。
此外,這個開源庫不僅提供了合理的預設模型,還可以讓使用者能夠開發自己的定製模型,且提供了靈活的 API,使用者可以在其中定義和插入自己定製的損失函式、評分函式和指標。 Microsoft Recommenders 是微軟雲端計算和人工智慧開發團隊與微軟亞洲研究院團隊深度合作,基於多年來各類大型企業級客戶的專案經驗以及最新學術研究成果,搭建的完整推薦系統的最新實操技巧開源專案。該專案有效解決了定製和搭建企業級推薦系統中的幾個難點,包括如何將學術研究成果或開源社群提供的範例適用於企業級應用、如何整合資訊檢索與推薦領域的學習指導資源倆協助從業人員深入理解並實際搭建完整推薦系統、如何選擇最優演算法以應對具體應用場景等。
為了協助資訊檢索與推薦領域的演算法模型的訓練和最佳化,微軟公司提供了一個大規模支援機器閱讀理解和問答系統等多種領域研究的資料集,簡稱 MSMACRO。該資料集從必應(bing)的搜尋查詢記錄中取樣,每個問題都有人工生成的答案和完全人工重寫的答案。此外,資料集包含從透過 bing 檢索的 web文件中提取的百萬個密碼,這些密碼提供了管理自然語言答案所需的資訊。
使用這個資料集,本文提出三個不同層次的難度不同的任務: (i) 根據一組上下文段落預測一個問題是否可以回答,然後像人類一樣提取和合成答案(ii) 基於根據問題和段落語境資訊可以被理解的上下文段落,來生成格式良好的答案(如果可能) , 最後(iii) 根據給定的一個問題,對檢索得到的段落進行排序。資料集的大小和問題來自真實使用者搜尋查詢的事實,該資料集的規模和真實世界的性質使它對基準測試機器閱讀理解和問答模型具有吸引力。
智東西認為,從清華大學該報告可以看出,現階段人工智慧人才總的來看美國的人才數量遙遙領先,我國人才數量在大部分領域領跑第二梯隊,但與位居首位的美國相比,中國高影響力學者數量明顯不足,頂尖學者相對匱乏,中美之間還存在較大的趕超空間。當前,人工智慧已經成為引領新一輪科技革命和產業變革的戰略性技術,我國在人工智慧領域的科學技術研究和產業發展,起步稍晚於以美國為代表的已開發國家,但是,在最近十餘年的人工智慧爆發發展期我國抓住了機遇,進入了快速發展階段。在這個階段,能夠推動技術突破和創造性應用的高階人才對人工智慧的發展起著至關重要的作用。
https://blog.csdn.net/weixin_42137700/article/details/103553272
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2669868/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 史丹佛最新AI報告發布,12張圖看懂AI現狀AI
- 領英發布《全球AI領域人才報告》,揭示全球AI人才圖譜AI
- 極飛科技釋出中國農業科技領域首份可持續發展報告
- 清華髮布《中國AI發展報告2018》:中科院系統AI論文產出全球第一AI
- 技術乾貨 | 2017年深度學習在NLP領域重大進展,以及發展趨勢深度學習
- 乾貨!一文看懂高精地圖相關內容地圖
- 全球 AI 報告出爐:美國稱王,中國人才緊缺!AI
- 清華出品:最易懂的AI晶片報告!AI晶片
- 2019年全球AI指數報告 人工智慧蓬勃發展AI人工智慧
- Gartner最新全球伺服器市場報告出爐,增勢喜人伺服器
- 清華大學:中國醫藥產業創新發展報告(附183頁下載)產業
- AI客服上線 乾貨 乾貨 全是乾貨!AI
- 54%中國NeurIPS作者流入美國:劍橋AI全景報告出爐AI
- 前瞻研究:電商領域人工智慧發展與趨勢 | 智周報告核心版人工智慧
- 2019中國電視劇產業發展報告產業
- C++17 最新進展報告C++
- ? 全球著名**網站 Pornhub 2019 年度報告新鮮出爐!網站
- 指明方向與趨勢!2019開發者技能報告出爐!!!
- Trustata:2018上半年無人貨架領域行業市場發展研究報告(附下載)Rust行業
- 2019人工智慧5大領域發展趨勢人工智慧
- Artificial Intelligence Index:2018年AI Index報告出爐IntelIndexAI
- 烏鎮智庫:2017全球人工智慧發展報告(細分領域篇)人工智慧
- 世界前沿技術發展報告2019
- 乾貨|自動駕駛行業研究報告自動駕駛行業
- C++17 的最新進展報告C++
- data.ai&IDC:2022年聚焦遊戲領域報告AI遊戲
- 史丹佛報告:十張圖剖析AI發展趨勢AI
- 剛出爐!AI指數報告:AI人才需求暴漲35倍,薪酬問鼎No.1AI
- 清華大學&中國人工智慧學會:2019人工智慧發展報告(附下載)人工智慧
- 絕對乾貨!司法領域車載監控技術分析
- 「推薦系統」 領域的最新進展你知道麼?
- Indeed分析資料出爐 VR工作激增400%VR
- 180頁PPT為你全解AI技術與產業發展 | 清華孫富春教授AI產業
- Stateof.ai:2019年AI報告AI
- 亞洲發展銀行:2022年亞洲發展前景報告(428頁)
- 頂尖AI研究者,中國貢獻26%:全球人才智庫報告出爐AI
- 直播賣貨系統開發,未來社交電商領域的發展是可期的
- 報名即將結束!11 大雲原生領域開源技術乾貨一場拿下