企業中的機器學習:下一個萬億級的增長從哪來?
在“哈利.波特”的世界中,分院帽是一種演算法,可以獲得學生的行為歷史、喜好和性格等方面的資料,然後據此作出決定,確定學生應該進入霍格沃茨學校裡的哪一個分院。如果現實世界裡存在這樣的分院帽的話,它應該會是機器學習應用程式,可以根據複雜的資料集自主地做出決策。如今,機器學習正在推動數萬億規模的全球產業,例如醫療保健、安全和農業等。
如果機器學習有望創造可觀的價值,那麼問題來了:這些價值將在哪裡產生呢?在本文中,筆者將介紹三種型別的公司創造並獲取價值的方式:應用機器學習的傳統公司、構建無行業屬性機器學習工具的公司以及構建垂直整合機器學習應用的公司。
機器學習不僅僅是科技巨頭的遊戲
臉書、亞馬遜、蘋果、網飛和谷歌在機器學習方面的創新廣為人知,從新聞推送到推薦引擎不一而足,但是絕大部分人還沒有意識到傳統行業對機器學習的需求正在日益增長。預計到2023年,全球人工智慧系統支出將達到980億美元,比2019年支出規模的2.5倍還要多,其中金融服務,零售和汽車領域處於領先地位。
比如,掌管了超過7萬億美元資產的投資管理公司黑石(Blackrock)在2018年推出了幾款機器學習支撐的ETF產品。而目前,機器學習也已經在醫療保健行業引發了廣泛的關注,涉及醫療影像、診斷和藥物發現的機器學習解決方案的預算有望在未來三年內達到100億美元的規模。
在這些企業客戶中,出現了三個廣泛的客戶群:軟體工程師、資料科學家和業務分析師,業務分析師有時也被稱為“公民資料科學家”。儘管業務分析師受過的技術培訓水平較低,但是他們構成了一個龐大並且不斷增長的使用者群體,這個群體正在應用機器學習幫助他們的企業利用自身不斷增長的資料儲存庫。
機器學習工具已經滲透進入各行各業
為了適應這些客戶群體,希望在這輪淘金熱中賣鎬的公司數量不斷激增。曾經在特斯拉和Snap擔任過工程副總裁的Stuart Bowers表示:“挑戰並不在於讓機器學習變得透明,而是讓痛苦的部分(例如日誌記錄、資料管理、部署和可再現性)變得容易,然後讓模型訓練變得高效並且可除錯。”
作為銷售更多基礎架構服務策略的一部分,現存的供應商——特別是那些公有云供應商已經採用了“端到端平臺”的方式。舉例來說,AWS的機器學習平臺Sagemaker最初是面向專家開發人員和資料科學家的,它最近推出了Sagemaker Studio,以將受眾群體擴大到技術背景較弱的使用者。對於像AWS這樣的技術巨頭來說,銷售機器學習工具是一種推動其客戶增加基礎設施支出的方式,這意味著他們有能力以很低的成本提供這些工具。
獨角獸們還經常會和雲服務供應商合作創造價值。比如,Databricks就是一個機器學習平臺,以強大的資料工程功能聞名,平臺建立在Apache Spark的基礎之上。該公司成立於2013年,如今價值62億美元。DataBricks和微軟之間的合作伙伴關係讓微軟的Azure能夠處理更多的資料和計算,同時也極大地幫助DataBricks擴充了市場。
然而,企業從業人員們開始要求“同類最佳”解決方案,而不是那些意在吸引他們購買更多基礎架構的工具。為了解決這個問題,下一代的創業企業將會追求更具針對性的方法。和當前各大現有平臺廣泛採用的模式相反,初創企業可以選擇特定問題並開發專用工具,這樣可以更有效地解決這些問題。在機器學習工具領域,現在存在著三大問題對使用者構成了重大挑戰。
- 資料集管理
雖然機器學習的結果可能看起來很優雅,但實際上,從業人員要將大部分的時間花在資料清理、整理和轉換工作上。因為資料越來越多地以各種不同的格式分散在多臺機器和雲之中,因此將資料變成同一種可消費的格式,讓團隊能夠輕鬆使用並且將其用於協作是非常困難的一件事。
為了解決這個問題,Tecton的聯合創始人兼執行長Mike Del Balso正在透過他新的創業公司使他在Uber倡導的最佳實踐民主化。他表示:“被破壞的資料是導致生產機器學習系統出現問題的最常見原因。建模人員將大部分時間都花在訓練時選擇和轉換功能,然後建立管道,將這些功能傳遞到生產模型之中。” Tecton構建了一個平臺來管理這些“功能”,並以這種方式來簡化資料層的複雜性,從企業原始資料中收集到的智慧實時訊號對於最佳化機器學習至關重要。
在更上游,Liquidata正在為資料庫構建開源的GitHub等效項。在我與Liquidata的聯合創始人兼執行長Tim Sehn(他曾經是Snap的前工程副總裁)的談話中,他強調“就像開源軟體一樣,我們需要在開放資料方面進行協作——在網際網路級別。這就是為什麼我們建立了DoltHub的原因,DoltHub是網際網路上免費儲存、託管和協作資料的地方。”
- 實驗跟蹤和版本控制
另一個常見的問題是結果之間缺乏可重複性。機器學習模型版本控制的缺位讓實驗變得很難復現。
正如Weights and Biases的聯合創始人兼執行長Lukas Biewald在接受我們的採訪時分享的那樣,“如今,最大的痛苦是缺乏基本的軟體和最佳實踐來管理全新的編碼風格。你無法使用糟糕的畫筆很好地作畫,你沒有辦法在糟糕的IDE(整合開發環境)中很好地編寫程式碼,你也無法使用我們現在擁有的工具構建和部署很棒的深度學習模型。”他的公司於2018年推出了一個實驗跟蹤解決方案,讓OpenAI等客戶能夠將見解從單個研究人員擴散到整個團隊。
- 模型可擴充套件
對於這個正在成熟的市場來說或,建立基礎架構以在生產中擴充套件模型部署並監控結果是另一個重要的問題。
Anyscale是開源框架Ray背後的公司,這家初創公司已經抽象出了分散式應用程式和可擴充套件機器學習的基礎架構。在我同Anyscale的聯合創始人兼執行長Robert Nishihara的交談中,他分享了自己的想法,“就像微軟的作業系統為開發人員工具和應用程式創造了一個生態系統一樣,我們也在創造基礎架構,以支援應用程式和庫的富生態系統,從模型訓練到部署,讓開發人員可以輕鬆地擴充套件機器學習應用程式。”
在自然語言處理或者被稱為NLP的領域中,可擴充套件性也在飛速發展。Hugging Face建立了一個開源庫來構建、訓練和共享NLP模型。該公司的聯合創始人兼執行長ClémentDelangue表示:“過去三年中發生了正規化轉變,NLP的轉換學習開始極大地改變了將NLP整合到業務應用程式中的可用性和準確性。”他表示:“我們讓企業有可能在一週而不是幾個月之內,將最新研究的NLP模型應用於生產。”
其他有前途的初創公司包括Streamlit,該公司讓開發人員可以僅僅使用幾行Python就建立機器學習應用並立刻進行部署。OctoML為機器學習應用了附加的智慧層,是系統變得更加易於最佳化和部署。Fiddler Labs已經建立了Explainable AI Platform(可解釋的人工智慧平臺),可以不間斷地解釋和監控生產結果。
要想在與老牌公司的激烈競爭中建立起長期穩固的公司,初創公司必須問自己兩個問題:對於哪些客戶來說我們是必不可少的?接觸這些客戶的最佳方式是什麼?
很多初創公司會提出想法,要在某個大市場中佔據1%的份額,但是通常來說,這些大市場就算沒有過度擁擠,其中的需求也已經得到了很好地滿足。專注於贏得核心客戶群的公司必須展現出強大的早期吸引力,這將轉化為長期擴充套件潛力。為了吸引這些客戶,Databricks和Datarobot等大多數成型企業都採用了自上而下的企業銷售方式。與我們在開發人員工具領域中看到的情況類似,我期待著機器學習初創企業最終將從單純的企業銷售發展為推動自下而上的採用,並獲得更多優勢,勝過當今以企業為中心的成型公司。
垂直整合的機器學習應用程式正在顛覆現狀
機器學習領域中一些最令人興奮的公司正在開拓新的商業模式以顛覆整個行業。汽車行業就是個最明顯的例子,僅僅在2019年一年,就有100億美元的資金投入到了這個行業。機器學習也將產生革命性影響的下一代垂直市場還包括醫療保健、工業、安全和農業。
Salesforce的首席科學家Richard Socher表示:“在‘機器學習+X’的模式下,機器學習最為有效。”他表示,“最好的機器學習公司都有著清晰的垂直重點。他們甚至不會將自己定義為機器學習公司。”他認為醫療保健領域是一個非常獨特的領域,極有前途:Athelas已將機器學習應用於免疫監測,透過收集病人白血球數量的資料幫助他們最佳化藥物攝入。Curai利用機器學習技術來提高醫生推薦的效率和質量,讓他們可以把更多的時間花在治療患者的工作上。Zebra和AIdoc透過訓練資料集來更快地確定醫療狀況,從而提高了放射科醫生的工作能力。
在工業和物流領域,Covariant是一家結合了強化學習和神經網路的初創公司,該公司讓機器人能夠管理大型倉庫設施中的物體;Agility and Dexterity同樣在構建機器人,以越來越複雜的方式適應各種不可預測的情況;Interos應用機器學習技術評估全球供應鏈網路,幫助企業圍繞供應商管理、業務連續性和風險做出關鍵決策。
在安全和國防領域,Verkada透過智慧地分析實時影片並從中學習,重新構想了企業物理安全;Anduril建立了一個機器學習主幹,該主幹可以整合來自感測器塔的資料,以增強國家安全的智慧;Shield AI的軟體讓無人系統可以解釋訊號,並且在戰場上智慧行動。
農業是另一個從機器學習技術中獲得巨大收益的垂直領域。John Deere收購了Blue River Technology,後者是一家開發智慧農作物噴灑裝置的初創公司。合併後的公司Intelligent Solutions Group的首席科學家Lee Redden表示:“我們引入計算機視覺技術來識別單株植物並針對單株植物採取行動,透過這種方式改變了農業世界。”其他著名的農科企業還包括Indigo,該公司將機器學習用於“精準農業”,利用資料,以更有利可圖、更具可持續性的方式生產食品。
我們將何去何從?
總結來說,機器學習已經悄然成為我們日常生活的一部分,支撐我們的汽車,醫院的運營並保障我們所吃的食物。到目前為止,大型企業孵化了最先進的技術,但是真正的希望存在於下一波機器學習應用程式和工具,將圍繞著機器智慧各種華而不實的炒作從哈利.波特式的幻想轉化為有形的社會價值。
對於機器學習能夠在未來幾年內創造的價值,我們有很多理由保持樂觀。傳統企業將訓練數以百萬計的公民資料科學家,將破碎的行業重塑為更高效的行業。機器學習工具將降低構建智慧應用程式的門檻,推動數以百萬計的新想法變成產品。垂直機器學習業務模型將讓人們獲得健康的食品,可靠的人身安全保障和負擔得起的醫療保健服務,這是一個民主化的程式。
我們將在這些地方找到機器學習的真正價值。
【編輯推薦】
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2706702/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 如何建立企業級別的機器學習模型伺服器?- kdnuggets機器學習模型伺服器
- 從 Quora 的 187 個問題中學習機器學習和 NLP機器學習
- 「壓縮」會是機器學習的下一個殺手級應用嗎?機器學習
- Azure - 機器學習企業級服務概述與介紹機器學習
- 企業可以使用範圍更廣利用機器學習來分析企業收集的資料機器學習
- 一個科學的CRM銷售流程,是怎樣加快企業業務增長的?
- 機器學習中的元學習機器學習
- AI機器學習自動化的四個等級AI機器學習
- 機器學習中的 CatBoost機器學習
- 企業在機器學習應用中需要吸取的經驗和教訓機器學習
- 從SaaS到PaaS,企業的個性化成長之路
- 未來3到5年內,哪個方向機器學習人才最稀缺?機器學習
- 機器學習中的五個實際問題及其對業務的影響機器學習
- SACC2018:機器學習與深度學習如何助力企業業務?機器學習深度學習
- Python和R哪個更適合機器學習?Python機器學習
- GO VS Python,哪個更適合機器學習?GoPython機器學習
- 企業從哪個方面來選擇免費OA辦公系統
- 機器學習的未來——深度特徵融合機器學習特徵
- 簡明機器學習——01機器學習的幾個基本要素機器學習
- 太空:推動全球經濟增長1.8萬億美元的重要機遇
- B2B 企業高速增長的三個實戰策略
- mysql預先取自動增長主鍵的下一個值MySql
- 在機器學習領域,主要的學習方式是哪幾種?機器學習
- 這個110歲的“長壽”企業,已經在計劃下一個百年...
- 16個用於資料科學和機器學習的頂級平臺資料科學機器學習
- 從零開始學習機器學習機器學習
- 一個企業網管的Linux學習之路Linux
- Python機器學習常用庫,你用過哪幾個?Python機器學習
- 一張圖說清AI、機器學習和深度學習在企業中作用 - 知乎AI機器學習深度學習
- 機器學習中的概率統計機器學習
- SAP戰略中的機器學習機器學習
- 機器學習中的過擬合機器學習
- 值得收藏的27個機器學習的小抄機器學習
- 機器學習|從未標記的視訊中學習跨模態時間表示機器學習
- 企業用的Linux伺服器版本選擇哪個好?Linux伺服器
- 我們該如何學習機器學習中的數學機器學習
- 揭秘FACEBOOK未來的機器學習平臺機器學習
- 五個常用的機器學習python庫!機器學習Python