真正的機器學習平臺根本不存在?

AIBigbull2050發表於2019-12-30

本文 3132字,建議閱讀 8分鐘

本文介紹機器學習平臺領域現狀。

『導讀』過去幾年,各大科技廠商開放了各種各樣的“平臺”,比如大資料平臺、機器學習平臺等,用於滿足資料科學與機器學習需求,這些平臺爭相奪取資料科學家、機器學習專案經理以及其他 AI 專案管理與規劃者的關注以及錢包。本文作者 Ron Schmelzer 是 AI 研究諮詢公司 Cognilytica 的執行合夥人兼首席分析師,在他看來,很多機器學習平臺並不符合規範,卻可以不斷佔據市場份額。那麼,機器學習平臺應該具備哪些條件?存在合格的機器學習平臺嗎?

『這些平臺究竟是什麼?』

對於各大科技公司努力做機器學習平臺的行為,我很能理解,畢竟作為主要的技術供應商,如果沒在 AI 領域弄出點動靜,可能很快就被市場遺忘了。但是,這些平臺究竟是什麼?為什麼會出現這麼激烈的市場競爭狀態?

要回答這個問題,關鍵在於意識到機器學習和資料科學專案,同以往典型應用程式或硬體開發專案之間的區別。過去,硬體與軟體開發工作的重點在於系統或者應用程式功能。相反,資料科學與機器學習專案更強調資料管理,持續不斷地從資料中學習知識,並對資料模型進行迭代演進。從以資料為中心的角度來看,傳統的開發流程與平臺在這類新場景中根本無法正常起效。所以,我們需要新的平臺。

機器學習平臺是什麼?

誰能真正簡化機器學習模型的建立、訓練與迭代,誰就能在這場競賽中勝出。

事實上,機器學習平臺和資料科學平臺之間存在交集,例如都會採用資料科學技術與機器學習演算法,並將其應用於大型資料集以開發機器學習模型。資料科學家每天使用的工具,與關注機器學習的科學家以及工程師們使用的工具也頗為相似。但是,相似並不代表相同,畢竟機器學習科學家與工程師的實際需求,與常規資料科學家與工程師還是存在一定差異的。

一般來說,負責管理機器學習專案的人員不僅需要管理 Notebook 與生態系統,打理與其他 Notebook 的協作工作,同時還需要統籌各類機器學習專用演算法、庫以及基礎設施,進而在龐大且不斷髮展的資料集之上訓練這些演算法。理想的機器學習平臺能夠幫助機器學習工程師、資料科學家以及資料工程師瞭解哪種機器學習方法最為有效,如何調整超引數,在基於自有或雲端的 CPU、GPU 或 TPU 叢集上部署計算密集型機器學習訓練,並提供用於管理與監控有監督與無監督訓練模式所必需的生態系統。

很明顯,資料科學平臺需要提供一套可協作、互動式的視覺化系統,用於機器學習模型的開發與管理,但在機器學習平臺方面,這樣的支援遠遠不夠。如上所述,機器學習系統正常運作的一大核心挑戰在於超引數的設定與調整。

從概念角度出發,機器學習模型需要從資料中學習各類引數。換言之,機器學習模型實際學到的就是資料引數,並藉此將新資料擬合至當前模型中。超引數是一種可配置的資料值,且無法在機器學習模型獲取實際資料前預先設定。這些超引數將直接影響到各類因素,例如複雜性以及學習速度等。不同的機器學習演算法需要不同的超引數組合,同時應當注意剔除其中不必要的超引數部分。在這方面,機器學習平臺有助於發現、設定並管理超引數,特別是非機器學習類資料科學平臺所不具備的演算法選擇與比較等功能。

應該具備什麼特質?

歸根結底,機器學習專案經理想要的只是能夠提升自身工作效率的工具。但是,機器學習專案複雜多樣,而且各有不同需求。其中某些專案專注於會話系統,有一些強調識別或者預測分析功能,也有一些主要面向強化學習或者自主系統。

此外,這些模型的部署(或者運營)方式也有所區別。某些模型在雲端或自有伺服器內,也有一些模型被部署在邊緣裝置中,或者採用離線批處理模式。資料科學家、資料工程師以及機器學習開發人員等群體在機器學習的應用、部署與需求等方面的差異,使得單一機器學習平臺的概念幾乎不具備實際可行性,這最終帶來了“十八般武藝,樣樣稀鬆”的結果。

因此,目前市面上出現了四種不同平臺:其一專注於資料科學家與模型構建者的需求;其二強調對大資料及資料工程的管理;其三面向模型“搭建”與模型互動系統;其四則用於模型生命週期管理,即“機器學習運營”。要想真正踐行機器學習平臺做出的承諾,開發者需要在這四個方面痛下苦功。

真正的機器學習平臺根本不存在?

AI 的四種應用環境

誰能真正簡化機器學習模型的建立、訓練與迭代,誰就能在這場競賽中勝出。在這類強大解決方案的幫助下,使用者能夠快速輕鬆地從笨拙的非智慧系統,跨越至可利用機器學習功能,解決以往無法解決的難題。相比之下,那些無法適應機器學習功能需求的資料科學平臺則將遭遇降級。同樣的,那些天然具備資料工程能力的大資料平臺也將在市場上成為贏家。未來的應用程式開發工具亦需要著力將機器學習模型視為生命週期中的主要組成部分。總結來講,機器學習運營才剛剛出現,且必將在未來幾年內成為行業中的又一大事件。

資料科學平臺是什麼?

資料科學家們的任務是從海量資料中整理出有用資訊,並將業務與運營資訊轉化為資料與數學語言。資料科學家需要掌握統計學、概率、數學以及演算法相關知識,藉此從大量資訊中收集有用的洞察見解。資料科學家還負責建立資料假設、執行資料測試與分析,而後將結果轉換為組織內能夠輕鬆檢視與理解的形式。

因此,一套純資料科學平臺應當滿足以下要求:協助構建資料模型、確定最適合當前資訊的假設、測試假設、促進資料科學家團隊之間的協作,並隨資訊的不斷變化推動資料模型的管理與開發。

此外,資料科學家的工作重點並不在以程式碼為中心的整合開發環境(IDE)中。相反,Notebook 才是他們的天地。Notebook 概念最初由 Mathematica 及 Matlab 等以數學為中心的學術型平臺提出,目前在 Python、R 以及 SAS 社群當中非常流行。所謂 Notebook,其本質在於記錄資料研究結果,並允許使用者面向不同源資料加以執行,從而簡化結果的可重複性。良好的 Notebook 應充當一種共享式協作環境,資料科學家小組可以在這裡協同工作,並利用不斷髮展的資料集進行模型迭代。儘管,Notebook 不能算是程式碼開發的理想環境,但卻能夠為資料的協作、探索以及視覺化提供強有力的支援。事實上,如果擁有足夠的訪問許可權對接清潔資料,那麼資料科學家們將毫不猶豫地利用 Notebooke 快速瀏覽大型資料集。

但是,如果無法訪問大量清潔資料,資料科學家的工作則會陷入困境。很明顯,資料的提取、清理與移動並不是資料科學家的職責所在,這些工作應該由資料工程師負責完成。資料工程師面對的主要挑戰就是從各類系統中提取結構化與非結構化格式的資料,而且這些資料往往並不“清潔”——存在缺少欄位、資料型別不匹配以及其他與資料形式相關的種種問題。

從這個角度來看,資料工程師實際上屬於負責設計、構建以及安排資料的工程人員。優秀的資料科學平臺還應幫助資料科學家輕鬆根據需求的增長動用計算能力。平臺無需將資料集複製至本地計算機上即可開始工作,確保資料科學家始終以最簡單便捷的方式訪問算力與資料集。為了實現這一目標,資料科學平臺當然也需要提供必要的資料工程功能。總結來講,一套實用的資料科學平臺應當具備一系列資料科學與資料工程功能元素。

『大家在爭些什麼?』

毫無疑問,不同規模的各類技術供應商都將重點放在平臺開發上,畢竟資料科學家與機器學習專案經理必須依賴這些平臺來開發、執行、操作以及管理企業中正在使用的資料模型。

對於這些供應商而言,未來的機器學習平臺如同過去以及當下已存在的作業系統、雲環境乃至移動開發平臺一樣。只要能夠在資料科學和機器學習平臺領域佔據市場份額,廠商就能夠在未來幾十年獲得豐厚的回報。

結果就是,在這場新興鬥爭中,每位參與者都希望儘可能攫取更可觀的市場份額。

所以,當供應商在宣傳中提到他們擁有人工智慧或者機器學習平臺時,我們不妨多問一句:“是哪一種平臺?”,通過本文,相信大家已經意識到這世界上存在著不只一種機器學習平臺,而且各自面向不同的實際需求。多一點思考,才能確保我們不會因身陷市場炒作而信錯廠商、選錯產品。

原文連結:

https://www.forbes.com/sites/cognitiveworld/2019/12/12/theres-no-such-thing-as-the-machine-learning-platform/#326f9b96a8dd

— 完 —



http://blog.sina.com.cn/s/blog_cfa68e330102zs6f.html



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2671337/,如需轉載,請註明出處,否則將追究法律責任。

相關文章