人人都能用的深度學習:當前三大自動化深度學習平臺簡介

機器之心發表於2018-04-28

深度學習技術往往比較複雜,從頭開發的難度較大,但現在有一些公司提供了能幫助開發者輕鬆使用深度學習的自動化深度學習(ADL)平臺,比如微軟的 CustomVision.AI、谷歌的 Cloud AutoML、OneClick.AI。Data Science Central 近日發文對這三個平臺進行了比較和盤點,機器之心對該文做了編譯介紹。

阻礙我們使用深度學習方法的原因有很多,其中最主要的是深度學習方法很複雜和困難。

資料科學領域有一部分研究者和開發者已經選擇學習這些新技術了,但在預測性和規範性建模的問題型別和技術方面(我們 90% 的工作就是這些),學習深度學習技術卻與我們的大部分工作方向背道而馳。

至少在影像、視訊、文字和語音識別與處理領域,人工智慧(AI)已經成為了每個人的口頭禪,但尋找有資格執行你的專案的資料科學家仍然很困難。

實際上我列舉的影像、視訊、文字和語音應用只是深度學習應用的一小部分。儘管這些是最為人所知且可能是最明顯的應用,但深度神經網路(DNN)也能出色地預測時序資料以及解決複雜的傳統的消費傾向問題。

去年 12 月份我在寫資料科學 2018 年預測時,我注意到 Gartner 說在 2018 年 DNN 會成為 80% 資料科學家的標準工具元件。我的預測是:儘管能實現這種簡潔性的第一家提供商肯定會獲得豐厚的回報,但絕不可能是在 2018 年。看來我預測錯了。

2018 年才剛過去 4 個月,我就看到了三種旨在簡化深度學習以讓任何人(至少是任何資料科學家)都能使用該技術的不同平臺。

最低要求

所有的主要公司和幾家小公司都為執行 CNN 或 RNN/LSTM 提供了極大簡化的工具,但這仍然需要實驗性地人工調整層的型別和數量、連線方式、節點和其它超引數(這些設定往往會影響最初的成功)。

我們希望有真正一鍵式的應用,讓一般的資料科學家或甚至開發者都能成功構建影像或文字分類器。

實現這一目標的最快方法是通過遷移學習。在深度學習領域,遷移學習是指將之前成功構建的大型的、複雜的 CNN 或 RNN/LSTM 模型在新的更有限的資料集上進行訓練。

基本上而言,常用於影像分類的遷移學習會將更復雜的模型歸納為更少或之前訓練過的類別。遷移學習不能創造原模型中沒有的分類,但它可以學習創造子集或彙總類別。

其優勢在於常常會執行超引數調節,這樣你就知道模型將會訓練。更重要的是,你只需不到 1 個小時時間,僅用幾百張有標註影像就能構建一個成功的遷移模型。

但是,自動化深度學習的真正目標是完全自動化的超引數調節,而不是遷移學習。你在下面會讀到,有的努力還在進行中,而有的則宣稱已經實現了這一目標。

微軟 CustomVision.AI

連結:https://www.customvision.ai 

2017 年底,微軟在 Microsoft Cognitive Services(微軟認知服務)的旗幟下推出了一系列極大簡化後的深度學習功能,涵蓋影像、視訊、文字和語音等各個領域。今年 1 月,他們又推出了完全自動化的平臺 Microsoft Custom Vision Services(微軟定製視覺服務)。

這個平臺只是影像分類器,並且還向使用者承諾只需少量影像就能使用微軟的巨大的已有大型、複雜、多影像分類器庫建立穩健的 CNN 遷移模型。

使用這個平臺非常簡單。只需將你的影像拖放到這個平臺上然後繼續即可。你需要一個即付即用的 Azure 帳戶,基本的技術支援是每個月 29 美元。模型訓練的時間不是明確的,但因為是遷移學習,所以應該會很快,因此也不會太貴(但也不是免費的)。

在專案設定過程中,你會被要求確定一個你的影像集將會遷移學習的一般域,目前可選的有:

1. 一般(General)

2. 食物(Food)

3. 地標(Landmarks)

4. 零售(Retail)

5. 成人(Adult)

6. 一般(緊湊)

7. 地標(緊湊)

8. 零售(緊湊)

儘管所有這些模型都可以在訓練後通過 restful API 執行,但最後三個類別(標記有「緊湊」)可以匯出到任何 iOS 或安卓邊緣裝置上離線執行。在 iOS 11 上匯出的格式是 CoreML 格式;在安卓裝置上是 TensorFlow 格式。這應該能吸引可能不是資料科學家的應用開發者為他們的應用新增即時影像分類功能。

可以預見微軟未來還會盡快地推出更復雜的功能。

谷歌 Cloud AutoML

連結:https://cloud.google.com/automl 

同樣在今年 1 月,谷歌也宣佈了其類似的專案 Cloud AutoML。這個平臺目前處於 alpha 開發階段,需要邀請才能參與。

和微軟一樣,這個服務使用了谷歌自己預構建的複雜 CNN 分類器的遷移學習。他們推薦至少給每個標籤提供 100 張影像來遷移學習。

人人都能用的深度學習:當前三大自動化深度學習平臺簡介

目前還不清楚該平臺在正式釋出時會有哪些影像類別,但使用者截圖顯示至少有一般、人臉、logo、地標,也許還有其它一些。從谷歌分享的截圖看,這些模型的訓練時間大約為 20 分鐘到幾個小時。

根據我們可以找到的資料,這個平臺的使用方式應該是通過 API。沒有什麼地方提到了匯出程式碼離線使用的情況。早期的 alpha 使用者包括迪斯尼公司和 Urban Outfitters。

可以預見很多新使用者都沒有有標註的資料,谷歌提供了它自己的人工標註服務,但要額外收費。

除了遷移學習之外,包括谷歌在內的主要公司都在推動自動化 CNN 和 RNN 優化調節的自動化方案。人工開發的模型是當前的常態,也是需要如此多不成功的迭代的原因。

谷歌將這種下一代技術稱為 Learn2Learn。當前他們在實驗用 RNN 來優化層、層型別、節點、連線和其它超引數。因為這基本上是非常高速的隨機搜尋,所以計算資源可能非常高。

人人都能用的深度學習:當前三大自動化深度學習平臺簡介

接下來要做的是用進化演算法來做同樣的事情,這在時間和計算上都會高效得多。在最近的演示中,谷歌研究者展示了這種方法的優良結果,但他們仍然光是在優化上就花了 3 到 10 天。

OneClick.AI

連結:https://www.oneclick.ai

OneClick.AI 是 2017 年底出現在市場上的一個自動化機器學習(AML)平臺,其中既包括傳統的演算法,也包括深度學習演算法。

OneClick.AI 光是 AML 方面也值得一看了,其中包括資料融合、準備、特徵工程、特徵選擇,後面還有並行的傳統多模型,以確定其中最佳的模型。

但是,OneClick 的不同之處在於其既有影像演算法,也有文字演算法;使用的方法既有遷移學習,也有完全自動化的超引數調節來重新修改影像和文字深度學習模型。

不同於谷歌和微軟,OneClick 在影像和文字上都準備好了。除此之外,他們還將 DNN 與傳統演算法組合到了一起,並且使用了 DNN 來做預測。

預測是使用 DNN 方面一個已經探索過的領域,但事實表明其表現能輕鬆超過 ARIMA 和 ARIMAX 等時序資料預測器。

對於這樣一個提供瞭如此複雜的工具和技術的平臺而言,它保持了「一鍵出模型」的簡單易用性——我認為這是自動化機器學習的最低要求,但也包括自動化深度學習。

他們用於優化深度學習模型的方法是專有的,但該公司的創始人兼 CEO Yuan Shen 描述說他們是用 AI 訓練 AI——可能是一種深度學習優化方法。

哪個平臺更好?

目前還沒有什麼標準可以評估哪個平臺更好,但 OneClick.AI 提供了一個案例。

在今年初的一個黑客馬拉松上,該團隊測試比較了 OneClick 和微軟的 CustomVision(谷歌的 AutoML 當時還不可用)。他們測試了兩個影像分類問題。標記符合以下描述的照片:

奔跑的馬或喝水的馬: 

人人都能用的深度學習:當前三大自動化深度學習平臺簡介

裸照:

人人都能用的深度學習:當前三大自動化深度學習平臺簡介

標記馬的任務是一個多標籤分類任務,裸照檢測是一個二元分類任務。對於每個任務,他們都使用了 20 張訓練影像以及另外 20 張測試影像。

標記馬的準確度:90%(OneClick.ai)vs. 75%(微軟 Custom Vision)

裸照檢測準確度:95%(OneClick.ai)vs. 50%(微軟 Custom Vision)

因為這個結果僅使用了遷移學習方面非常少量的樣本,所以不具有統計意義。但還是能看到差別。

這是遷移學習方面的比較。我們很有興趣瞭解自動化模型優化方面的比較。OneClick 準備好了。谷歌應該很快就會跟進。

你可能想問亞馬遜的情況?在我們的調研中沒看到亞馬遜在自動化深度學習方面的計劃,但也不會落後太遠。

原文連結:https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it

相關文章