機器學習的時代來臨 人類應該做點什麼?

csdn發表於2013-08-16

  很多人對《終結者》系列電影都有著很深的印象,在電影中出現的機械人T-800就是人工智慧技術的反面樣板工程,T-800沒有情感,沒有知覺,更不知何為恐懼,它被製造出來得唯一目的就是完成即定的任務,其中央處理器為學習型,可以儲存幾乎無限的資料與資料。雖然在這部電影中,只是虛構出一個被機器統治世界的場景,但在現實生活中,很多人也擔心這一天會到來,所以反對機器人的發展計劃。 

  近來來,機器學習技術得到飛速的發展,雖然很多人懷疑其有效性,或者害怕未來可能會影響到人類的發展,但是目前還不用過度的擔心。尤其是機器學習在資料探勘和分析領域已經展示出自己強大的能力,而且遠遠超越了傳統的資料分析方法,很多高科技公司如谷歌、亞馬遜、LinkedIn以及Pandora都圍繞機器學習建立了自己的業務。

  除了這些大公司之外,很多初創公司也在機器學習領域進行了探索。在今年7月16日,Hadoop領軍公司之一的Cloudera收購了機器學習創業公司Myrrix,它是一個實時的、可擴充套件的叢集和推薦系統,從Apache Mahout專案演變而來。另一家機器學習的創業公司Ayasdi,也在當天日宣佈獲得了3060萬美元的B輪融資,該公司使用一項稱為拓撲資料分析的技術,建立有視覺震撼力的檢視,幫助客戶為產品進行分類。

  CSDN也曾經總結了5家試圖將機器學習簡單化的創業公司:

  Alpine data Labs:Greenplum的子公司(EMC是其投資者之一),主要研究方向是預測分析,其軟體可以嵌入到公司內部的資料儲存中(無論是Hadoop還是其它任意流行的資料庫)。通過繪製流程圖,使用者可以對資料進行分析。

  Context Relevant:Context Relevant通過一個預先包裝好的演算法庫,可以在數秒內為使用者資料建立預測模型,主要用於反欺騙、客戶流失以及其它的經典預測分析用例。其創始人兼CEO Stephen Purpura說:“只要會用Excel,就能很好的使用我們的產品”。

  Datameer:幾年前,Datameer為Hadoop分析開發了一個電子表格介面,目前,這個電子表格中已新增了數百個功能。在3.0版本中,通過預置的機器學習演算法,使用者只需點選幾次滑鼠就可以建立叢集和列依賴。

  Skytree:Skytree的主要產品是一些大型的企業級機器學習軟體,但是它們也推出了一個針對小型使用者的產品Adviser,目前還是測試版。它是一個桌面應用程式,可以方便地連線到網路、本地或資料來源,使用者可以選擇演算法庫以及輸出樣式。

  Wise.io:Wise.io的計劃是將其創始人作為天文學研究人員的經驗應用到商業領域。Wise.io的產品是一個直觀、易於使用的機器學習平臺,幾個簡單的點選就可以建立和部署模型,而且很快。聯合創始人Joshua Bloom曾說某客戶在使用其產品後,分析TB級大小的感測資料所用時間從300個小時減少到了20分鐘。

  還有前谷歌資訊長及工程副總裁Douglas Merrill和Capital One公司前主管Shawn Budde聯合創立的ZestFinance,這是一家位於洛杉磯的初創公司,他們使用機器學習的方式來評估個人貸款的信貸風險指數。在ZestFinance的分析模型中大約有70000個變數,然後使用一些機器學習演算法進行分析。一旦機器承接了大部分的工作,那麼工作人員只需要根據分析結果進行一些邏輯分析和判斷。總之,ZestFinance聲稱這種方式比傳統的衡量模型提升了60%的效率,更重要的是,還款率也比傳統的方法高出了90%。 而且70000多個變數,人類並不適合也不能完成如此龐大的資料集計算。 

  其實機器最獨特的能力在於:獨立的評估模式,以及可以從更廣泛的資料集之中得到結果,而傳統的分析工具很難做到這點。機器學習幫助企業省卻了時間密集型的人工處理過程,這就可以讓企業更充分地利用資料採集技術,部署更便宜的儲存、計算能力和分散式資料庫技術。在這個時代,所有這些都是至關重要,因為資料每兩年就要增加一倍! 

  儘管有很多的優勢,機器學習的概念仍然很容易引發原始的恐懼和不信任。因此,如果你想在機器學習的業務上有所建樹,還應當謹慎,參考方法如下:

  分析企業的環境

  企業文化影響機器學習業務的成功與否。貴公司是技術趨勢的先行者,還是保守者?競爭也是一個很好的激勵因素,在同行業中,是否有使用機器學習讓業務大步發展的公司?如果他們已經通過機器學習技術實現了盈利,這個壓力就會迫使企業重新定義發展方向。

  如果高層領導有任何新舉措,總是會有所幫助。也不要在乎他的title——可以是CTO,可以是一個領域內的專家。他們只需要有一個願景和一個需要解決的問題就行了。最後,看看公司是否擁有配套的基礎設施來支援機器學習。

  讓更多人認識到:機器學習並不會減少工作崗位

  很多人擔心,機器學習技術將意味著工作崗位會大幅削減——自己的或者別人的,這絕對是一個錯誤的想法!這就像增加一個新僱員,機器學習有助於提高生產力,只是可能會改變一些工作的模式。與其擔心機器學習會帶來不好的影響,還不如在這個新興的領域中學習一下,說不定未來自己也能成為機器學習領域的專家。

  和機器一起工作

  誠然,很多人都不願意讓機器來做分析、做決策並去執行。所以早期的工作的專案重點,就是要先建立信任: 

  從小事做起,來證明機器學習的價值:找到一個特定的、可解決的業務問題,它能夠很好地響應資料驅動的方法,然後通過測試和誤差分析來不斷地改進演算法,積累在技術層面的信任。 

  人工檢查處理的結果,然後驗證機器的結論:將機器學習演算法的信心水平製成晴雨表,如果達到90%的置信水平,可能就不再需要人工的干預了。 

  建立一個驗證反饋的環路:機器學習的價值之一就是會產生不可預知的洞察力,雖然有時會難以接受這它不反直覺的發現。例如,在檢查庫存管理系統時,發現它想訂購400件襯衫,但是直覺告訴你不需要。那就認真檢查一下,看看是否真的有這種需求,如果有,那麼機器就是正確的,以後也就更容易相信機器給出的建議。 

  定義關鍵績效指標(KPI)來衡量,並使用它來嚴格測試機器學習的成果:這些數字不僅能夠給人帶來信心,同樣也能促使機器學習演算法的不斷完善。

  現在機器學習越來越受到大家關注,很多人對機器學習的印象可能都是實驗室中大量晦澀難懂的理論和資料分析,其實國外已經有很多創業公司將其實現了商業化。至少,目前的機器學習還不能威脅到人類的生存,如果它還能推動科技的進步,那麼為什麼不好好利用呢?

  英文來源:How to learn to stop worrying and love machine learning

相關文章