Spark的危機與機遇:未來必然是AI框架倒推資料處理框架

AI前線發表於2019-03-04

Spark的危機與機遇:未來必然是AI框架倒推資料處理框架 作者 | 祝威廉,主要關注大資料/機器學習方向,

現丁香園資深資料架構

來源 | 經授權轉載自簡書

AI 前線導讀:上週,在 Spark+AI Summit 大會上,Spark 和 Mesos 的核心作者兼 Databrick 首席技術專家 Matei Zaharia 宣佈推出開源機器學習平臺 MLflow,這是一個能夠覆蓋機器學習全流程(從資料準備到模型訓練到最終部署)的新平臺,旨在為資料科學家構建、測試和部署機器學習模型的複雜過程做一些簡化工作。Matei 表示,研究工作主要圍繞著“如何為開發者提供類似谷歌 TFX、Facebook FBLearner Flow 等平臺類似的好處,但是要以開放的方式——不僅在開源的意義上開放,而且是可以使用任何工具和演算法的意義上開放”的想法展開。AI 前線對這個平臺進行了詳細報導,詳見 《Spark 團隊開源新作:全流程機器學習平臺 MLflow》

對於這個全新的機器學習平臺,大家存在各種各樣的疑問,包括 MLflow 的定位是什麼?它與 TensorFlow 之間是什麼樣的關係?今天我們帶來了祝威廉老師對於 MLflow 的一些看法,供大家參考。

更多優質內容請關注微信公眾號“AI 前線”,(ID:ai-front)

MLFlow

上週發了一篇文章《Spark 團隊新作 MLFlow 解決了什麼問題》(https://www.jianshu.com/p/2ed60a1dc764 )描述了我對 MLFlow 的一些看法,現在想來,Spark 團隊是非常聰明的,AI 同學都有自己的社、自己的生態,Spark 則是在工程研發群體具有很大的影響力,而在 AI 領域並沒有太大號召力。所以它其實是沒辦法通過一個顛覆性的東西去讓 AI 同學轉移過來的,而 MLFlow 並沒有改變 AI 同學的原有習慣和流程,它提供了一些輔助工具和標準,解決了一些痛點,慢慢滲透,從而實現慢慢轉型,當然,最後也完全可能也掀不起什麼波瀾。

Spark 光鮮背後的挑戰

第一個便是 AI 浪潮崛起,對 Spark 即是危機也是機遇。DataBrick 現在一直宣稱自己是一家 AI 公司,不過你可能會好奇,為什麼 Spark 背後的 DataBrick 公司不好好固守資料處理方面的優勢,而不斷嘗試轉型 AI 呢?刨去整個資本市場和技術浪潮不談,其實最大的問題是 未來必然是 AI 框架倒推資料處理框架。AI 框架很可能衍生出適合自己的資料處理框架,比如 TensorFlow,對 tf.data 進行了很大的增強,方便做資料處理。如果 Spark 不主動出擊,未來會很被動。

第二個就是流式了,隨著流式時代的來臨,而在此之前 Spark 在流式領域一直不緊不慢,加固在批處理方面的優勢的同時也喪失了流領域的先機,很多公司(尤其是雲公司,比如阿里雲、華為等)都轉向 Flink。我在 16 年的時候,就不斷強調流式計算的重要性,比如這篇文章《資料天生就是流式的》(https://www.jianshu.com/p/9574e359ce35 ),為此還專門建立了一個專題。這也使得 Spark 在傳統資料處理領域不斷遭受新的挑戰。

步履日漸沉重

Spark 還提出了一個 Hydrogen 設計,從而使得 Spark 能夠更好地結合深度學習框架。從某種角度而言是順應形勢,但其實是在轉型 AI 的情況下不得已而為之。

依然是王者

Spark 依然是我用過最好用的工具,依然有最好的生態。基於它之上,做很多事情會變得很輕鬆。

後話

其實我覺得和 AI 進行適配,不一定是朝著整合 AI 框架的方向發展。前面我們提到 未來必然是 AI 框架倒推資料處理框架,只要讓 Spark 能夠更好的為 AI 做資料預處理,成為事實標準,並且適配主流 AI 框架,那麼 Spark 必然會有一個新的護城河。最簡單的例子,Spark 2.3 已經支援圖片處理了,但是其實還是蠻多問題的,是可以做得更好的。另外能不能支援張量?總之最好的策略其實是壓縮 AI 框架的邊界,保證 Spark 在資料處理方面的絕對壟斷地位。我在實際使用中發現,很多資料預處理,Spark 目前做起來是不方便的,非得用 AI 演算法庫的函式。

當然,還有就是加速流的發展,並且加大這方面的宣傳和投入,確定在資料處理第二階段依然能夠保持領先優勢。

原文連結:

https://www.jianshu.com/p/2dc96dfc89c8

相關文章