AI Studio 是百度推出的一站式開發平臺:一個囊括了 AI 教程、程式碼環境、演算法算力、資料集,並提供免費的線上雲端計算的一體化程式設計環境。使用者不必糾結於複雜的環境配置和繁瑣的擴充套件包搜尋,只要開啟瀏覽器輸入 aistudio.baidu.com,就可以在 AI Studio 開展深度學習項之旅。
據介紹,運用 AI Studio 開發者可以實現自定義的 AI 建模能力而無需考慮硬體成本、運維成本、人力成本。相比於在其他雲平臺上花錢買計算資源和儲存空間跑模型來說,AI Studio 提供全套免費服務(計算資源免費,空間資源免費,專案託管免費,視訊教程也免費)。
1. 功能簡介
第一次進入主頁,首先的感覺是這是個類似 Kaggle 的資料競賽平臺,但是仔細看來,AI Studio 強化了工程專案的概念,一大亮點就是 AI 學習專案這個版塊,裡面包括大量真實場景的工程專案(影象識別,情感分析,個性化推薦等);另一個重要組成就是比賽了,眾所周知構建良性迴圈的產、學、研社群是行業發展的重要組成部分,不過目前 AI Studio 組織的比賽還剛起步,希望後續比賽多多,大家在這裡都能學到知識,交到朋友,最重要的是,可以在學習的同時給自己賺點零用錢花花。
Figure 1 AI Studio 特性
AI Studio 主要功能有專案類的專案大廳,建立專案,樣例專案,共享專案等四大部分,有資料科學比賽,有各種經典資料集和自定義資料集,有詳盡的機器學習和深度學習的教程及視訊公開課等。下面就簡單的來介紹一下:
Figure 2 AI Studio 主要功能
1.1. 選單欄
1.1.1.專案大廳
作為 AI Studio 的主頁,整合百度積累的經典 AI 學習專案,自我的專案管理及共享專案列表。整個平臺都是以專案為核心的,也凸顯了 AI Studio 的定位,就是以技術及資源輸出幫助個人開發者,中小企業快速擁有 AI 能力以更好的服務自身業務。
1.1.2.資料集
資料集包括一些經典的公開資料集, 像 MNIST,IMDB,CIFAR10,Penn Treebank,MovieLens 等;也包括一些開放的百度資料(中文短文字語料,資訊抽取資料)。不過相比 Kaggle 近萬份資料集來說,仍然有很大的發展空間,但是個人感覺 AI Studio 的資料集還是要比 Tianchi 的資料集規整很多的。當然,使用者也可以上傳自定義資料進行模型開發。
1.1.3.比賽
這個模組應該是所有玩資料的人最感興趣的了吧。我之前在 Kaggle 參加過一些專案,總的來說,Kaggle 在比賽這塊做的真的很好,賽制清晰,社群完善,每次參加比賽都能有很大的提高。相較 Kaggle,AI Studio 的比賽數量還不多,不過以上提到的功能都有,另外就是 AI Studio 提供雲端訓練平臺,這樣大家的武器庫相對平衡,能夠更公平的進行競賽。
Figure 3 AI Studio 比賽頁面
1.2. 建立專案
AI Studio 以專案為單元進行開發。建立專案,新增資料集,執行開發環境(notebook kernel),就可以開始構建自己的模型進行開發生產了。目前,環境僅支援 Python2.7(期待更多的環境,Python3,R 等),演算法框架包括 PaddlePaddle 和 sklearn 等。
Figure 4 AI Studio 建立專案頁面
1.3. 教程&資訊
關於教程,PaddlePaddle 關於機器學習的教程應該是中文裡最好的教程之一,不僅有機器學習、深度學習的視訊公開課和教程文件(獲取),而且包含了大量的各個方向的深度學習例項,比如影象分類,詞向量,個性化推薦,情感分析,語義角色標註以及機器翻譯等,不僅從原理層面進行深入淺出的講解,更提供模型程式碼逐行進行實操,可以說為 Everyone can AI 提供了強大的後盾。
1.3.1.樣例工程
樣例工程即是提供的機器學習經典應用場景及歷屆比賽的 notebook,我們可以把各個專案 fork 到自己的專案下進行開發學習。對於急於構建 AI 能力的中小企業,這個模組是最大福音了,很久之前看過 Tensorflow 的文件,只有幾個典型問題的教程及程式碼,而這裡包括了大量的基於不同場景的 AI 模型可供拿來即用。
1.3.2.共享專案
顧名思義,AI Studio 也提供專案共享功能供大家互相學習。在開源的時代,能夠培育成熟活躍的社群是平臺發展的必要因素,這也是 Tensorflow 能夠在深度學習領域中快速推廣的重要原因。
1.3.3.我的專案
這裡是開發者自己的專案列表,不再贅述。
2.實戰建模
AI Studio 以專案為核心,建立專案的同時可以自定義上傳資料,也可以選取平臺已有資料集;目前,環境僅支援 Python2.7,演算法庫包括 sklearn 和 PaddlePaddle。不需要費心在開發環境上,能夠安心構造模型,將建模工程雲服務化應該是未來趨勢(能夠方便中小企業快速構建 AI 能力)。在 AI Studio 各專案之間是獨立分配資源的,可以同時除錯多個專案模型,這點還是非常讚的。
我這裡建立了兩個共享專案,檢視程式碼直接 fork 專案開箱即用(需百度賬號登入:Titanic 專案,個性化推薦專案),程式碼詳見附錄及共享專案。第一個專案是最最基礎的資料科學的入門問題 titanic 預測是否生還(自主上傳資料,呼叫 sklearn 隨機森林模型);第二,利用已有資料(MovieLens)及 PaddlePaddle 構建個性化推薦模型。一個小問題就是建立專案後進入專案頁面,進入執行狀態還需要點選執行專案,這裡感覺有點冗餘;執行的專案就是一個簡潔的 notebook 開發環境,該有的功能都有,個人感覺速度比 Kaggle 要好很多(不知是不是我的網速渣)。
Figure 5 AI Studio 專案介面
開發環境主體是由 notebook 形式組成,熟悉 jupyter 的同學可以無縫銜接,比 notebook 好的一點就是專案的資料集都會形成列表,簡單一鍵獲取資料路徑。選單欄更簡潔,基本功能都有,可以儲存 notebook,有個有意思的地方是在建立專案的時候環境只能選 Python2.7,但這裡 kernel 選擇會出現 Python3。
Figure 6 AI Studio 開發頁面
3. 群雄逐鹿
作為一站式 AI 建模開發平臺 AI Studio,如何在強手如雲的 AI 開發平臺市場殺出一條血路呢?最重要的途徑就是完善比賽社群的理念,通過 PaddlePaddle+AI Studio 的方式搶佔資料科學競賽這個領域,這裡就簡要比較一下幾家資料競賽平臺(AI Studio、Kaggle、天池、DataCastle 等)。以下將從對開發者的能力提升,平臺比賽的公平性和比賽收穫等三個方面闡述。
3.1. 能力提升
可以說參加資料建模比賽是最好的提升自身能力的方式了,在比賽中,不但能夠了解各行各業的業務形式,資料結構,也能真實的驗證我們對特徵和演算法的不同理解,而良好的社群環境和程式碼共享機制為自身能力的提升提供了溫床。在這方面,Kaggle 因為成立最早有很強的人才和程式碼沉澱,投靠 Google 後,更是愈發的體現了其中的優勢。天池和 DataCastle 在社群建設上也投入了大量的精力,但是與 Kaggle 還是有較大的差距,不過在中文社群中應該算是佼佼者。AI Studio 顯然有後來者的劣勢,不過看過他們的樣例專案,還是很佩服他們在教程和文件方面的思考,可以說在 AI 中文教程裡 AI Studio 大踏步的跨入了第一梯隊。
3.2. 比賽的公平性
這裡的公平性體現在兩個方面,第一是賽題的資料量要有一定的規模以防止資料量過小導致的模型穩定性問題;第二則是計算資源的公平性,舉個栗子,假如阿里組隊以 P100 GPU 叢集的算力來參賽的話,恐怕其他人的勝算只能寄託於奇蹟了,而對於 ImageNet 那樣量級的資料,我們只有 PC 機的話恐怕連一次迭代也完成不了,更不要說模型調優了。
在這方面,AI Studio 具有極大的優勢,平臺不僅免費對參賽選手給予計算資源上的支援,更是提供最新版本的 PaddlePaddle 供選手呼叫。而天池在初賽階段是沒有叢集算力支援的,只有進入複賽的選手才會有機會使用數加平臺。Kaggle 和 DataCastle 更是沒有平臺的支援。相比來說在比賽資源的公平性上 AI Studio 的優勢巨大。
3.3. 比賽收穫
這裡的收穫是隻除了能力以外的物質方面的獲得,比如現金獎勵和簡歷背書。這兩點對於初入職場的新人還是非常重要的。客觀來講,國際影響力的話 Kaggle 絕對是 No.1,致力於進入 Google、facebook 的同學最好還是在 Kaggle 上挑選優質的比賽;針對國內的話,AI Studio、天池和 DataCastle 在獎金方面相差不大,由於 AI Studi 推出最晚,所以獎金相對來說高一些。
綜合來看,AI Studio 作為資料科學競賽中的新人,背靠百度資源,憑藉更加公平的平臺資源輸出,獎勵制度和完善的教程文件體系將會在未來大規模的搶佔資料競賽市場。對開發者來說,免費使用 GPU 資源,更簡單的開發流程已經是很大的誘惑了。
4. 總結
AI Studio 是一個基於 PaddlePaddle 的整合了大量資料集、經典樣例專案及比賽專案的雲端計算建模平臺,也是一個機器學習、深度學習的交流社群。AI Studio 最大限度的解放了資料科學家需要環境配置的煩惱,在雲端整合計算資源,專案管理,程式碼管理,比賽等多種功能,形成一站式兼顧學習和工作的建模平臺。而且 AI Studio 提供計算資源,空間資源,視訊公開課都是免費的。最後,期待一下的更多比賽的推出。