觀點 | 重新思考機器學習:大資料消耗已無必要

AI科技大本營發表於2019-02-04


你以為你有了大資料,就能在機器學習界高枕無憂?簡直NAIVE
近幾年,機器學習在人工智慧界迅速走紅,幾乎隨處可見它的身影,人們甚至開始神化這一技術:基於大資料的機器學習無所不能。
但是,機器學習炒了這麼多年,為什麼我們仍未看到企業開發出任何這方面應用?
本文告訴我們應該重新思考機器學習:大資料消耗已無必要

翻譯 | AI科技大本營(rgznai100)

參與 | Shawn,焦燕

導讀

機器學習炒了這麼這麼多年,為什麼我們還沒看到企業有開發出任何這方面應用?本文會告訴你它難在哪裡,並帶你瞭解機器學習工程師這個神祕的職業。

你以為你有了大資料,就能在機器學習界高枕無憂?簡直NAIVE

近幾年,機器學習在人工智慧界迅速走紅,幾乎隨處可見它的身影,人們甚至開始神化這一技術:基於大資料的機器學習無所不能。

但是,機器學習炒了這麼多年,為什麼我們仍未看到企業開發出任何這方面應用?

本文告訴我們應該重新思考機器學習:大資料消耗已無必要

文章分析到,即使擁有大資料,也無法隨心所欲應用機器學習。機器學習是大資料的一個延伸,非常難攻克。

為什麼?到底有哪些因素制約著它的發展?我們一起來看看作者是怎樣解釋的。

觀點 | 重新思考機器學習:大資料消耗已無必要

雖然機器學習(ML)很可能是“下一項偉大技術”,但是主流企業仍未開發出任何ML應用。一些激進的預言家斷言,50%的機構和組織會在2017年利用機器學習實現轉型,而謹慎的觀察家則將這個數字縮小在近15%。即使這樣,還是有所誇大。

機器學習(及與其關係密切的AI)最終會變革企業計算,但是現在還有許多障礙因素需要克服。當中最大的障礙是什麼?技能。

大資料難,在這之上的機器學習更是難上加難

多年來,市場上關於大資料的炒作不絕於耳,人們大肆鼓吹這項技術擁有改變一切的能力。雖然一項接一項的調查表明應用機器學習的公司的數量即將越過一半,但是Hadoop、Kafka和Spark等名稱古怪的大資料專案進行了這麼多年,我們離“一半”還是差十萬八千里。

為什麼會這樣?因為大資料很難。

從很多方面看,機器學習可以說是大資料革命的一個延伸,但它比大資料更難攻克。雖然希望常在,但是正如Gartner分析師Nick Heudecker指出的那樣:“只有15%的機構能在生產中成功應用大資料”。那麼,機器學習呢?Nick表示:“成功應用機器學習的機率則更低”。

即便如此,眾公司仍幻想前途一片光明。在Belatrix Software公司進行的一項調查中,81%的受調查公司表示:“未來五年機器學習將給他們的機構帶來某種影響或者巨大影響”。鑑於機器學習能影響運作效率等因素,這些公司一定會積極開展機器學習專案吧?然而情況並不是這樣。接受調查的公司中只有18%的公司真正開展了機器學習專案,40%的公司含糊其辭,只有42%的公司坦率承認:他們在機器學習方面未採取任何實際行動。

其實,你所謂的機器學習只是黃粱一夢

這種不作為部分歸結於機器學習(及AI)神話與現實之間的巨大差距。正如Amplify Partners公司的David Beyer所言:“現在有太多企業忙於推銷AI,簡直可以用趨之如騖來形容”。這很危險,因為公司最終要麼過度投資(然後幻想破滅走人低谷),要麼在稍微有實際研究表明機器學習非常困難時避而遠之,這種困難不是普通Python工程師利用業餘時間能攻克得了的。

獲取資料難,處理資料更難

資料是成功攻克機器學習的關鍵因素之一。為了正確訓練模型,企業需要獲取“海量的資料”——亞馬遜(Amazon)AI團隊成員兼謝菲爾德大學(University of Sheffield)機器學習教授Neil Lawrence這樣描述。他表示:“不管演算法有多優秀,驅動機器學習進步的最佳途徑在於獲取大量的資料,而不是改進演算法”。

不幸的是,只有少數企業擁有如此海量的資料。即便是這些企業,它們還要解決資料儲存在不同位置的問題。Yandex Data Factory營運長Alexander Khaytin感嘆道:“資料經常儲存在分離的儲存器和處理系統中,資料聚合會十分耗時且困難”。

有了資料,你敢進行試驗麼?!

成功讓所有資料整齊劃一地行動後,還有更多問題。例如需要在生產中進行大膽試驗。Khaytin表示:“當進行規範性分析 (prescriptive analytics)時,只有在實際業務流程中真正應用機器學習模型,我們才能真實地評估業務影響的大小。

“對於多數公司而言,在數字化轉型的開始階段開展未在先前試驗中表現出價值的大型機器學習專案,這種做法渺茫的前景往往讓他們望而卻步。”

你敗在了最後一關——沒有機器學習專家

即使有些公司成功克服了這些障礙,它們也會敗在最後一關——人。和先興起的大資料一樣,機器學習也需要進行試驗。大多數公司很喜歡稱自己為資料驅動型公司,但是很少有公司真正是。多年來,公司高層口頭承諾與真正應用大資料之間存在著巨大的空白,但是現在公司完全不考慮資料,只依賴直覺(62%的公司承認自己是資料盲,而剩下的38%則可能在說謊)。

儘管機器學習人才問題也與文化有關,這可能很糟糕,但問題不僅於此。

如果有更多人懂得如何進行機器學習建模,那麼機器學習就不會像這樣難於攻克,但是問題就在於這方面的專家太少。當我詢問Gartner分析師Merv Adrian造成機器學習成功率甚微的最大原因是什麼時,他明確地回答道:“在我看來主要是技能問題。缺失技能”。

複製這樣一位機器學習專家有多難?Ben Lorica 和 Mike Loukides給這類人起了個外號——“類資料科學家”,他們認為找到這些資料驅動型產品人才可以說是希望渺茫。

他們通常擁有理科博士學位,在處理大規模資料方面有著豐富的實際經驗。他們往往不只精通R或其他統計軟體包,而且還是無所不通的優秀程式設計師。他們掌握資料獲取、資料清理、原型構建、原型生產、產品設計、設定和管理資料架構等等技能。事實上,他們是典型的‘矽谷獨角獸’:稀有並且很難聘到。

Ovum分析師樂觀地表示:“當高校大量開設資料科學課程時,歷史就會重演”,大學會推進開展更多的機器學習專案。

也許的確如此,但是如果相信學術培訓能夠培養出我們所需的那種專家,那就過於積極了。正如Lorica 和Loukide強調的那樣,機器學習是一門與實際掛鉤的學科,光靠課堂學習是無法輕鬆掌握的。可能正是由於這個原因,培訓通常以失敗告終。摩托羅拉解決方案公司(Motorola Solutions)的首席資料工程師曾在Spark MLlib嘗試培訓50名軟體工程師,但是結果迫使他得出這樣一個結論:“這種方法行不通”。

但是……,希望還是有的。

我不認為你所理解的機器學習是真正的機器學習

你認為的機器學習其實使用簡單的迴歸分析法就可以解決很多問題

首先,大部分被渲染為“機器學習”的應用實際上並不是機器學習。

正如Basecamp資料科學家Noah Lorang解釋的那樣:“現在盛行的“資料科學”熱潮有一個不可告人的祕密:人們談論的所謂“資料科學”大部分都不是企業所需要的……機器學習只能很好地解決一小部分商業問題;只要擁有好資料並理解“使用簡單方法能得到最好的結果”這句話的含義,就能解決大部分商業問題”。

Beyer承認自己有“不可告人的祕密”,並同意“使用簡單的迴歸分析法就可以解決很多(所謂的機器學習)問題”。

你認為的機器學習應用根本用不到專業人才

同樣,那些被正確歸為“機器學習”的應用也包含許多聰明的非機器學習工程師可以解決的問題。Lorica 和 Loukides稱:“在任何應用中,嚴格意義上的“機器學習”只佔較小的一部分:需要有人負責維護伺服器基礎架構、監督資料收集渠道以及確保有足夠的計算資源等任務”。

真正的機器學習工程師應該是這樣的

我們可以將機器學習工程師的任務視為將機器學習附在更廣的應用上。他們可能參與原始架構構建以及某個應用的開發,但是卻不負責在機器學習模型失效時對其進行重新訓練。他們不是在資料中尋找意義的資料科學家,也不是Lorica 和Loukides口中那種“目標是構建出能分析資料和生成結果的機器(建立出能工作並且經過調整後能生成可靠結果的神經網路)”的人才”。

這才是解決機器學習問題的正確開啟方式

簡而言之,如果一家機構想要成功解決機器學習問題,這並不意味著它的機器學習工程師需要隨時待命。我們還應在企業內重新設定對機器學習意義的預期:用一系列的"if/then"語句就可以解決企業想要解決的大多數問題,完全沒必要用到某些需要獲取大量資料的機器學習演算法。

如果機構的機器學習專案從小問題開始著手,在充實內部人才之後再處理大問題,機構在機器學習上取得初步成功的可能性就更大——這點是毋庸置疑的。

原文連結:

https://www.theregister.co.uk/2017/07/05/rethink_machine_learning/

你贊同本文陳述的觀點嗎?


相關文章