人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

AIBigbull2050發表於2019-09-23

導讀:深度學習,也稱“階層學習”或“分層學習”,是基於學習資料表徵的更廣泛的機器學習方法系列的一部分,而不是基於特定任務的演算法。深度學習透過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現資料的分散式特徵表示。

深度學習的優勢是用非監督式或半監督式的特徵學習和分層特徵提取高效演算法來替代手工獲取特徵。其中深度指的是網路中最長的輸入輸出距離。

本文回顧深度學習發展過程中的重大事件,並介紹近年來各領域的發展概況。

作者:王健宗 瞿曉陽

如需轉載請聯絡華章科技

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

01 深度學習的崛起之路

1. 人臉識別的起源

2012年,Alex Krizhevsky等人提出了AlexNet網路結構模型,以一種結構上輕巧簡單但計算量上遠超傳統模型的方式輕易戰勝了傳統的機器學習模型,並憑藉它在ImageNet影像分類挑戰賽上贏得了冠軍。

自此,在影像領域點燃了深度學習的熱潮,無數公司與學者紛紛轉向該領域,並在短短几年內就取得了大量的突破性進展,其中包括何凱明等人提出的殘差神經網路、谷歌提出的GoogLeNet等。 這些新的研究成果使得人臉識別等過去不可能實現的場景擁有了落地的可能。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

2. 自動駕駛的福音

巧合的是,同樣在2012年,影像分割領域也透過深度學習的應用取得了歷史性突破,那就是 全卷積網路(FCN)的出現。在另一個影像領域的著名影像分割任務資料集VOC上,FCN重新整理了該資料集的最優指標,引爆了深度學習在影像分割領域的應用。

影像分類與影像分割的突破帶來了另一個行業的突破,那就是自動駕駛。早在2009年,谷歌就已經成立了負責自動駕駛業務的子公司Waymo,也是目前自動駕駛的巨頭之一,其估值頂峰達到了1700多億美元,可見自動駕駛行業在投資人心中的分量。

在國外,除谷歌外,特斯拉、蘋果公司等科技巨頭,奧迪、德爾福、通用汽車等汽車行業巨頭,Uber、Lyft等網約車領域巨頭也都在做自動駕駛研究。在國內,百度、Momenta、Pony.ai、地平線、馭勢科技、圖森未來等公司也在這一領域不斷髮力。

在深度學習出現之前,自動駕駛的水平主要停留在基於毫米波雷達及其他感測器的低階水平,這個水平的自動駕駛是不可能真正解放司機注意力的; 深度學習的出現帶來了影像識別與影像語義分割理解的突破,讓人們看到了實現L5級別完全自動駕駛的希望,也由此引起了自動駕駛行業的爆發。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

3. 超越人類的AI智慧體

2016年發生了另一起點燃深度學習浪潮的事件,那就是谷歌DeepMind研發的AI圍棋手AlphaGo異軍突起。

  • 2016年3月,AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4:1的總比分獲勝;
  • 2016年年末至2017年年初,該程式以Master為註冊名與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績,被稱為Alpha Master;
  • 2017年5月,在中國烏鎮圍棋峰會上,它與當時排名世界第一的世界圍棋冠軍柯潔對戰,以3:0的總比分獲勝。

圍棋界公認AlphaGo的棋力已經超過人類職業圍棋頂尖水平,在GoRatings網站公佈的世界職業圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。

AlphaGo的出現讓人們進一步意識到了深度學習的無限可能。2019年3月,ACM正式宣佈將2018年圖靈獎授予Yoshua Bengio、Geoffrey Hinton和Yann LeCun,以表彰他們提出的概念和工作使得深度學習神經網路有了重大突破。這也使得人們對深度學習的熱情進一步發酵,讓更多的研究開始往這個領域傾斜與投入。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

4. 懂你的AI

近幾年,深度學習領域的熱門研究主要集中在以下幾個方向: 生成對抗網路、遷移學習、強化學習、聯邦學習以及AutoML。

其中,在演算法方面,谷歌提出的注意力機制以及基於該思想衍生出的BERT模型大幅重新整理了自然理解領域所有資料集的評價指標,業內對此做出這樣的評價:“自然語言處理是未來深度學習領域皇 冠上的明珠。”

基於底層語言理解模型的突破,讓機器翻譯、人機對話、文字分析、AI音樂、AI寫作等許多過去不可想象的任務都成為可能。

5. 奔跑、飛行以及玩遊戲的AI

讓機器為人類服務是人類一直以來的美好夢想,隨著深度學習的發展,這個夢想正在逐漸實現。過去為了要讓機器具有智慧,需要人為賦予其大量的邏輯判斷命令;而 如今伴隨著影像技術的成熟以及深度強化學習的應用,機器人在路上飛速奔跑、識別並跨越障礙物,乃至花式跳舞都已經成為現實。

除此之外,AI機器人還能夠與玩家聯機對戰《星際爭霸》,並且一般的職業選手都沒法戰勝它。另一個值得關注的是京東正在打造的無人送貨機,它能夠自動規劃路線、躲避障礙、識別目標客戶並完成貨物投遞,是非常值得期待的一項新型服務。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

6. 人人都可以創造屬於自己的AI

以上的種種發展都證明了,AI是這個時代不可阻擋的一個趨勢。然而就當下而言,由於AI是一個較為新潮的事物,實現起來的技術難度較大,因此在各行各業的普及難度也較大,但是能夠讓AI開花結果的正是非IT領域的各行各業。

另外,目前擁抱AI的都是主流的大公司或者科技含量較高的創業公司,而傳統的行業則缺乏相應的資源及人才。為了普及人工智慧,降級人工智慧的門檻,並且方便人工智慧的開發,實現人人都會人工智慧, 自動化機器學習(AutoML)這個概念應運而生。

AutoML是一個自動模型學習的平臺,其核心思想是自動化創造AI模型,把中間的複雜流程與煩瑣的步驟都交給機器來自動完成,使用者只要指定輸入的資料和任務型別即可。

當前許多企業透過這種技術自動化生成了許多優秀的模型,例如小米公司透過神經架構搜尋技術得到了最優的影像超解析度模型,用於在手機端提升影像質量。除此之外,微軟、亞馬遜、谷歌、Salesforce等公司也都為顧客提供了類似的平臺,使得對AI不那麼熟悉的人也可以方便地應用AI技術並使其在自己的行業內落地。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

02 深度學習的發展

隨著深度學習的應用越來越廣泛,3個成熟的研究領域逐漸形成,分別是計算機視覺、自然語言處理以及語音領域,目前AI創業公司也主要集中在這些領域。下面我們就重點展開來介紹這3大應用領域。

1. 計算機視覺

計算機視覺(Computer Vision,CV), 顧名思義就是計算機擁有像人類一樣“看”的能力。在這裡“看”的具體含義是指:不僅要將當前的影像輸入到計算機中,計算機還應該具有智力,可以根據要求針對當前影像輸出一定的分析結果。

這個過程可以定義為幾個 核心任務:目標分類、目標檢測、目標分割以及目標跟蹤。

  • 目標分類(Target Classification)

就是基於分類任務的目標識別問題,即計算機根據給定的資料,找出這些資料中哪些是所需的目標。例如,貓狗分類問題或者花草分類問題。

這也是深度學習領域中最簡單的一類任務,根據最後的分類函式可以將此任務分為二分類問題和多分類問題。目標分類任務是其他任務的基礎,也是很多初學者的入門級任務。

  • 目標檢測(Target Detection)

可以看成是分類和迴歸問題的統一。該任務不僅要判斷當前影像的所屬類別,還要透過包圍框(bounding box)標出影像中目標的具體位置。

目標檢測問題由來已久,基於深度學習的發展從2013年R-CNN演算法的提出開始,不斷演變出了一系列多步檢測網路。之後很多研究學者對網路進行了改進,提出了單步檢測,將分類、定位、檢測功能都整合在一個網路中,如Yolo、SSD等。目標檢測任務的應用十分廣泛,經常應用於電力系統檢測、醫療影像檢測等。

目標檢測任務根據問題的複雜性,衍生出了 人臉檢測問題。與傳統目標檢測問題不同的是,人臉檢測需要實現人臉關鍵點的定位和檢測,現在移動裝置中應用比較廣泛的人臉識別系統就是基於這一任務研究而來。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

  • 目標分割(Target Segmentation)

就是將一張影像中的特定目標的區域分割出來。在深度學習領域中,目標分割的研究方向主要分為兩類: 語義分割例項分割

所謂語義分割就是針對影像中的每個畫素點進行分類,即判斷影像中哪些畫素屬於哪個目標。

而例項分割是語義分割的進階版,它不僅要判斷哪些畫素屬於目標,而且要判斷哪些畫素屬於第一個目標,哪些畫素屬於第二個目標,目前在醫療影像專案中的關鍵就是對人體器官的分割。常見的影像目標分割網路有FCN和U-Net,其中,U-Net常用於醫療影像分割。

  • 目標跟蹤(Target Tracking)

是一個基於時間序列的目標定位問題,通常是基於影片資料的任務,常用於智慧監控系統、嫌疑犯追逃等。首先是在第一幀影像中鎖定目標,在之後的時序資料中,不斷地對目標進行重定位。

這是一個非常複雜的問題,需要用到目標檢測和分割任務,而且根據時序相關性進行有效建模,可以減少定位過程中的計算量,提高追蹤效率。

我們介紹了這麼多計算機視覺的定義及任務,那麼它與影像處理有什麼異同呢?

嚴格來講, 影像處理是一種數字訊號處理,它不涉及對影像內容的理解,一般是透過數學函式等對影像進行變換或增強,如歸一化影像、影像預處理、消除影像噪聲等;而計算機視覺是使用計算機模擬人類視覺,該模擬過程包括學習以及推理能力。

計算機視覺離不開 影像處理操作,因此可以將影像處理看成計算機視覺的一個子集,當目標是對影像進行增強時,可以稱為影像處理,當目標是檢測和分割等時,則稱為計算機視覺。

計算機視覺任務看似容易,但也存在很多潛在的挑戰。因為我們人眼每天看到的景象是錯綜複雜的,我們的視覺和大腦的判別是同步進行的,但對於計算機而言,雖然經過了很多學者的研究,其仍無法達到人類視覺的能力。

而且,感官世界極其複雜,任何光照條件或者遮擋都可能會造成計算機識別任務的失敗。因此,計算機視覺仍然有很長的一段路要走。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

2. 自然語言處理

如果說計算機視覺是模擬人類“看”的能力,那麼自然語言處理(Natural Language Processing,NLP)就是模擬人類的“語言”能力,這裡的“語言”是指說話和寫作能力。站在專業的角度來講, NLP就是以一種智慧高效的方式對人類創造的文字資料進行系統地分析、理解和提取資訊的過程。

NLP的研究任務很廣泛,在本書中我們將它分為5大類:詞法分析、句子分析、語義分析、資訊抽取和頂層任務。

  • 詞法分析就是以詞為單位對資料進行分析,這是NLP中最基本的工作。常見的詞性標註和拼寫校正任務就屬於詞法分析。
  • 句子分析就是以句子為單位的分析任務。
  • 語義分析就是透過對文字資料的分析,生成對應文字資料的語義資訊的形式化表示,常見任務有詞義消歧等。
  • 資訊抽取是NLP任務中應用最廣泛的一個,簡單理解就是從非結構化的文字資料中抽取出使用者所需的結構化資訊。常見任務有命名實體消除、情感分析、實體消歧等。
  • 頂層任務就是直接面向使用者的任務,比如機器翻譯或文字摘要,它需要多種任務結合生成對應的可以直接讀取的輸出結果。另外頂級任務還包括對話系統、閱讀理解等。

NLP機制涉及兩個流程:自然語言理解和自然語言生成。我們都知道文字資料是非結構化語言,而計算機擅長處理的是結構化資料。所以在NLP機制中,計算機首先需要從非結構化資料中進行讀取,轉化成結構化資料,透過語法知識和規則進行理解,然後將結構化資料進行組合,生成通順的非結構化文字。

NLP的應用非常廣泛,比如微博的熱點推薦,就是透過使用者對應的資訊和經常瀏覽的資訊進行情感分析,個性化推薦當前熱點。另外郵件的垃圾分類、使用者體驗反饋等也都是透過自然語言處理技術實現的。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

3. 語音識別

我們的目標不僅僅是讓計算機有“看”和“語言”的能力,還要讓計算機擁有“聽”和“說”的能力,因此還需要語音識別(Voice Recognition)。 語音識別的目標是將一段自然語言透過聲學訊號的形式傳給計算機,由計算機理解並且做出回應。

語音識別系統主要包含 特徵提取聲學模型語言模型字典與解碼4大部分。

其中特徵提取需要對採集的聲音訊號進行濾波、分幀等音訊預處理工作,目的是將要進行分析的音訊訊號合適地從原始訊號中提取出來。

語音識別的過程可以概括如下:

  • 根據特徵提取將聲音訊號從時域轉換到頻域,從而為聲學模型提供合適的特徵向量;
  • 再由聲學模型根據特徵向量來判斷其屬於哪個聲學符號;
  • 然後利用語言模型來判斷聲學符號可能屬於哪個片語序列;
  • 最後根據已有字典對片語序列進行解碼,從而得到最後的文字表示。

在人機互動的過程當中,計算機除了能透過語音識別技術來“聽懂”人們對它說的話,還需要能夠將文字資訊用人們能聽懂的方式表達出來。在這樣的需求下,語音合成技術應運而生。語音合成技術能夠利用計算機等裝置將文字資訊轉換為人們能聽懂的音訊資料,再透過語音的方式播放出來。

聲紋識別是語音識別領域的又一個研究方向。與語音識別不同,聲紋識別屬於生物識別技術的一種,它根據語音波形中反映說話者生理和行為特徵的語音引數,透過連線聲紋資料庫來鑑別人的身份。

因此,聲紋識別不注重語音訊號的語義理解,而是從語音訊號中提取個人聲紋特徵,並從中找出能夠唯一辨別(聲紋識別的理論基礎是每一個聲音都有自己的特徵,該特徵能將不同人的聲音進行有效地區分)說話者身份特徵的資訊。

語音識別有很廣闊的應用場景和發展空間,如:

  • 行車導航軟體透過語音合成技術為司機指引道路、播報路況,人們甚至可以選擇用自己喜歡的明星的聲音來播報軟體內容;
  • 智慧家居系統利用語音合成技術能夠實現與使用者的實時交流,人們可以從智慧家居的“嘴”中得知家中的一些基本情況,大大提高了生活質量;
  • 在智慧教學領域,學生能夠利用語音合成技術跟讀單詞、句子,語音輔導軟體的出現大大方便了教學過程,提高了教學質量。

關於作者:王健宗,大型金融集團科技公司深度學習平臺和AutoML平臺負責人,中國人工智慧開源軟體發展聯盟副理事長,美國佛羅里達大學人工智慧博士後,發表聯邦學習、深度學習、雲端計算和大資料等領域國際論文30餘篇,以及發明專利200餘項。

瞿曉陽 ,華中科技大學計算機系統結構博士,美國中佛羅里達大學訪問學者,大型金融集團科技公司資深演算法工程師,一直從事機器學習、大資料、體系結構方面的研究工作,在AutoML平臺、面向AI的雲原生架構、高效能運算、高效能儲存系統等方面經驗豐富。

本文摘編自《深入理解AutoML和AutoDL:構建自動化機器學習與深度學習平臺》,經出版方授權釋出。

人人都可以創造自己的AI:深度學習的6大應用及3大成熟領域

延伸閱讀《深入理解AutoML和AutoDL》




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2657910/,如需轉載,請註明出處,否則將追究法律責任。

相關文章