在之前的文章中,我們和大家分享了很多跟資料以及第四正規化團隊相關的,好玩兒有意思的內容,從這一期開始我們打算“務點正業”,陸續推出原創的行業乾貨與大家分享,並且在《範“視”》這個欄目中,會持續的貢獻我們對行業的思考,歡迎捧場,當然也歡迎拍磚。
我們打算從機器學習雲服務說起。
誠然,為了讓企業更便捷的應用機器學習,業界開始探索 “喂資料,取答案”的輕鬆方式。這種方式,在使用上對門檻的要求並不高,讓不會機器學習的使用者和企業也能夠輕鬆上手。
在這個背景下,微軟和亞馬遜先後在2014年和2015年推出了各自的基於雲的機器學習服務:Microsoft Azure Machine Learing Studio,Amazon Machine Learing Service。
這兩個平臺有什麼區別?
我們從資料來源、資料處理、建模演算法、模型評估等方面對Amazon Machine Learing Service以及Microsoft Azure Machine Learing Studio進行了具體的對比。
(需要說明的是所有的實驗和對比都是很利用各平臺提供的控制檯或者介面來操作的,但有些功能只能通過呼叫API的形式來使用。)
Figure 1 AWS Machine Leaning 介面
Figure 2 Microsoft Azure Machine Learning 介面
從直觀上來說,Aws更為功能簡單樸素,通過引導式的方式進行建模,而Azure功能更豐富,互動體驗更好,給使用者更大的自由度,通過拖拽的方式進行圖形化的建模過程。
接下來,我們從多個維度對兩者進行比對:
- 資料來源
- AWS支援更大的資料集
- MS AZURE支援更廣泛的資料格式和資料型別
- 資料處理
- 建模過程
- 模型評估
對比了這麼多,我們直接看看兩個平臺的建模效果如何。
來做一個簡單資料集上的對比試驗:
我們從UCI Machine Learning Repository中選擇了 Bank Marketing Dataset 作為測試的例子,這個資料集中有45000+的樣本資料,每個樣本有17個屬性,最後兩個平臺上產生的模型的結果如下:
可以從結果看出:
兩個平臺的模型結果都很優秀,雖然有一定的差別,但是考慮到資料和演算法都沒有經過特別的優化,可以認為兩個平臺的建模效果基本在一個水平線上,可能在更細微的場景和特定的資料集上會各有優勢,不過各中特殊之處就讓看官自己去探尋吧!
好了,最後來一個靠譜的總結:
- 兩個平臺都是在“Machine Learning For Everyone”的想法下推出的,目的是為了更多的使用者和企業能快捷的享受到機器學習技術的收益,而不用太關注具體的技術細節。
- AWS ML在使用上會更為簡潔,但同時也犧牲了一些優化空間和利用使用者自身經驗的部分。而Azure ML則功能更豐富,更富於變化,這就對使用者提出了一定的要求。
- 但兩個平臺都結合各自在雲平臺上完善的上下游服務,把機器學習這樣的工具從實驗室中解放出來,變成一個看得見的,真正可能產生實際市場效用的資料分析技術,並以SaaS的模式開始進行商業化的嘗試,這一點已經比傳統的軟體工具的方式更進一步了。
當然如何讓這一技術真正的和具體的業務更加貼近,前面還有很長的路要走,現在也有越來越多的企業和團隊加入到了這一行列中。
我們有理由相信“AI For Everyone”的那天會很快到來。