[乾貨分享]數美聯合創始人&CTO樑堃:無孔不入的機器學習與人工智慧

玄學醬發表於2018-05-08

人工智慧和機器學習這兩個生僻的科技術語如今已經廣為流傳。過去10年,機器學習已經為我們帶來了無人駕駛汽車、實用的語音識別、有效的網路搜尋,還大幅加深了我們對人類基因組的理解。機器學習是什麼;機器學習能做什麼;企業機器學習應用趨勢又哪些?數美CTO樑堃在以“大資料與人工智慧”為主題的第五屆中國大資料應用論壇上,分享了他的理解,以下是他演講的內容。

2016-11-24-425c8e6624-f477-458c-bea1-822

演講嘉賓:樑堃,數美聯合創始人&CTO, 高考狀元,北大學霸,曾就職於百度,小米擔任高階工程師,架構師。兩次獲得百度年度“MVE”(最具有價值員工) 。成功將大資料運用於搜尋 推薦,反欺詐,風險控制等領域。具有大資料方案整體架構能力。擅長發現並解決使用者在大資料領域的痛點。

2016-11-24-53c9ff57da-09fb-4ace-b4da-dbd

先做下自我介紹,我是樑堃,數美的聯合創始人兼CTO。很榮幸有機會給大家介紹機器學習和人工智慧。這次介紹分為三個部分:

第一部分,機器學習是什麼

第二部分,機器學習能做什麼

第三部分,企業機器學習應用趨勢

機器學習是什麼

一個方面來介紹機器學習,就是從機器學習的目標或者業務要做什麼來介紹。機器學習最大的是電腦科學,其中有一個很重要的分支是人工智慧。人工智慧裡面有兩種實現人工智慧的方法,這兩種方法分別對應於人類智慧的兩種思考模式,一種思考模式叫做演繹法,就是我從已知的規則和事實推導新的規則和事實。這個系統是之前60-80年代用的比較多的系統,叫專家系統。而第二種在人類思考叫做歸納法,通過對事實觀察歸納來歸納總結出來新的規律、新的事物的本質,然後再把它應用到新的事物裡面去。把這個是現在計算之中就叫做機器學習。當然最近幾年非常熱的機器學習的方法叫做深度學習,它是機器學習裡面的一個領域。

2016-11-24-193cd0e7d3-c90e-4507-93dd-c1e

從一九四幾年開始發展出來電腦科學,它在做什麼?本質就是嘗試對業務進行自動化處理。剛出來的時候完全是針對數字計算,大規模的計算,如果要靠人來做這個事情是很困難的,需要花費大量的精力和時間。那麼能否讓機器像做成流水線計算呢?這就是最早的計算。我們不斷的去探究,不單單資料計算自動化了,普通企業各個行業的企業裡面的流程以及業務也在被資訊化、自動化。這是關於資料庫出現之後包括訂單的轉移、ERP財務等等都被自動化。隨著計算機越來越火,可以自動化越來越多的東西,網際網路自動化很多東西,比如對資料的檢索等。當我們進一步擴充可以自動化的範圍時我們發現了一些困難,舉個例子,比如說自動駕駛一輛汽車,這件事情就非常困難。因為計算機本質上它是一個程式,需要得到明確的指令,第一步做什麼、第二步做什麼,它才能做。而自動駕駛汽車,這個無法用一個明確的指令描述,因為這個過程非常複雜。

2016-11-24-4406364c2b-5d12-4894-9bfe-526

還有一個非常一經典問題就是有一隻小貓,連一個三歲的孩子都可以非常容易辨別出來,但是寫一段程式讓計算機系統認知就很複雜。

所以就提出來第二個分支:人工智慧,就是想對非常複雜的問題或業務進行智慧的自動化。為什麼叫智慧的自動化?因為很難用一個確定的公式或演算法來一步步的做出來。我們需要這個系統可以去觀察世界,可以像人一樣思考來智慧、理性做決策,最大化目標。比如我要駕駛汽車,在最短時間內到達那個地方同時又不出任何事故,這就是人工智慧。人工智慧就是把原本機器學習裡面簡單程式、無法自動化的東西,用一種像人一樣智慧的把它做出來。

人工智慧在業界使用的方法有兩個,一個是演繹法,這種方法的核心概念就是有一個專家會把已知的知識和裡面的推理規則放到這裡面,當出現新的狀況時,系統會根據已知的知道推演出新的規則。比如說大樓裡都有防火器,其實它就是一個特別簡單的專家系統,它只知道一個事實,溫度達到一定高度時、有煙霧的時候就會啟動。這種系統有一個好處就是隻需要專家的支援,而不需要那麼多資料的支援。而業務系統,就是我們說得機器學習。

歸納法。這時候沒有專家告訴他推理的規則,而是給他一大堆資料,這就是對世界的描述,然後會有個演算法,無論是神經網路演算法還是其他,這個演算法本身是觀察資料、探索資料,它會自動的根據統計學規則從資料中總結出來一些規則和事實。當一份新的資料過來,就可以應用到其中,機器學習本身還是把複雜的業務系統自動化。

2016-11-24-103df62d4b-1a6a-4df5-8ece-af1

而深度學習是機器學習的一個分支,我們可以做點選率預估,這個是網際網路購盈利的兩大核心之一。當一個使用者來了,我應該給他出什麼樣的廣告,這個使用者才最可能點這個廣告讓我盈利。深度學習解決的是,對這個世界做一種更抽象的解讀。比如說傳統的是無法形成多級的抽象,深度學習不一樣,深度學習是給他一個圖片就行。深度學習主要是基於神經網路,神經網路的前幾層是在學習這張圖片裡面或者學習人臉的邊邊角角的特徵,這是不是有一個弧線或者陰影,比如說一些特徵組合出來眼睛這個概念,一些特徵組合出來鼻子這個概念。再往上這個神經網路就會形成一個非常高階的抽象,這是一個人臉。這種高階的概念對我們而言是非常自然的,但是對於計算機而言,你想把它描述準確極其困難。

2016-11-24-560fed9f2f-a033-47a2-89ee-ce6

比如說“馬”這個概念,我們可以看到有各種各樣的馬,白色的馬、黑色的馬或者有的馬少一條腿甚至是一個玩具的馬、木馬,當把這個東西方在你面前,任何一個人都明確知道這是馬。但是你想給一個機器去描述的時候,什麼樣的東西是馬,這個概念極其複雜。你很難描述出來。兩個耳朵、四條腿、能跑的就是馬?不對。深度學習要解決的就是這個問題。希望通過深度學習讓計算機認識之前只有人才認識的高階概念。

深度學習這兩年做的非常火,但其實這個概念很早就有了。70年代的時候銀行就開始使用了,目前演進為“深度學習”,銀行就做個人信用得分的預測。比如說收入、年齡、消費組成、職業,預測輸出如期還款概率或者延期還款概率等等。

機器學習在今天越來越重要,為什麼?因為這些年資訊化程度非常之高,儲存成本又非常便宜,廣泛的網際網路化讓大量資料出現在我們的儲存、出現在計算機世界當中。這樣就有機會用更加複雜的機器學習的演算法,因為它有大量事實、資料可以學習。它是歸納法,本身就依賴於這個條件。所以這兩年發展非常快速。

機器學習能做什麼?

演算法交易、欺詐檢測、信用評估…這是非常經典的應用,都是預測的東西。我把前的兩個提出來,前兩個就是去年到今天為止整個網際網路行業盈利最大的兩個演算法,一個是線上廣告,線上廣告貫穿了整個PC端。開啟任何一個網頁,都會發現這些廣告。有些是廣告主直接跟網站簽訂投放協議,但更多的是通過京東、淘寶這樣的中介去投放。當你投放廣告時,只有使用者點選了,廣告主才會付賬。所以廣告出現在這個頁面時,你一定要把他最可能點的廣告放在上面。這裡面就涉及到非常複雜的東西。這裡面涉及到方方面面,包括你要對使用者建立畫像,你要了解你的使用者,性別、年齡、住在什麼地區什麼小區。第二是個性化推薦,相信大家對這個非常熟悉。在網際網路上我們每個人都在享受定製化的服務,你在聽音樂,它會把你感興趣的音樂推給你,你看今日頭條,他也會把你感興趣的新聞推給你。當然還有演算法交易、欺詐檢測、信用評估等等,比如說我們的員工,實時檢測一個人,他是真的人還是機器人。另外,現在機器人特別高階,他們自己都會相互聊天。

2016-11-24-27af216223-4c6a-4446-b6cb-3e2

那麼新興應用呢?機器學習其實能做很多事情,我挑了幾個非常震驚的例子,比如說實時翻譯,一個路牌,你把攝像頭對準它,它就會給你實時翻譯成你認識的語言。又比如微軟的一個軟體,是同聲傳譯的東西,他只要說英語就行,他說出來的話就被實時的翻譯成中文,你說出來的話在他聽到的時候已經被實時翻譯成英文。這件事情讓我極其震驚。因為我大學有一個同學就是學同聲傳譯的,當時他學的時候非常辛苦,但是現在機器就可以做到了。自動駕駛,一兩年前還是在實驗階段,但今天已經開始上路。第一個真正路上跑的。包括特斯拉、Google、百度。相信自動駕駛將來會成為一箇中高階車的標配。為什麼今天可以做到這點?很簡單,因為特斯拉有數億英里的駕駛資料。

從剛才幾個例子來看,我們想象一下機器學習可以深入到生活的方方面面。金融製造業、機器人工廠、醫療、教育、服務等方方面面。為什麼?因為機器學習或者說基於機器學習的人工智慧,它最本質的目標就是在某一個任務上做到像人一樣有智慧、像人一樣可以對這個問題進行分析並做出快速的預測。在我看來機器學習會在其他方面成為核心。

企業機器學習應用趨勢

2016-11-24-52e543dc05-75b3-4514-be6a-94a

我們來看Google公司的一個資料,在2002年的時候Google公司全部署了機器學習模型,大幾十個,或者一百出頭的樣子。但是到2016年年初的時候,他們部署的機器學習的模型已經接近3000個。在他的每一個業務裡都有Gmail、讀書、翻譯等都部署了機器學習。其實很多公司,尤其是比較早的網際網路公司都是這樣的趨勢。在我看來可能幾年之後幾乎所有大規模的業務都將用機器學習自動處理,幾乎所有的。我加了“幾乎”只是為了嚴謹,因為很有可能是“所有”。首先,隨著業務廣泛的數字化、網際網路化,無論是工業4.0還是網際網路+都是把人的衣食住行各個方面的業務數字化、網際網路化。這會導致什麼?會導致我們有非常大量的資料產生。包括叫車的資料、吃飯的資料、穿衣服的資料、醫療資料等等都會出現。同時,儲存和計算成本在不斷降低。幾年之後,每個企業都將成為資料企業,都將積攢自己的核心資料,這些資料是非常寶貴的財富。因為這些資料提供了機器學習、人工智慧的基石。

第二,這些資料不能僅僅出些報表而已,每一個企業都將大規模部署機器學習,去把自己企業裡面儘可能多的大規模業務自動化。能用機器學習代替的東西,為什麼不呢,所以每個企業都會在自己的核心業務上部署機器學習。當然機器學習還是個挺麻煩的事情,對於有實力的大企業可以建設自己的專家團隊、機器學習團隊來進行定製化服務,但是這件事情是富人遊戲,一般的企業並不適用。現在無論是亞馬遜、微軟、阿里都在整合標準學習模組,以及共享行業的資訊模組。在我看來,中小型的企業也會部署機器學習模型,只不過他們的不是定製化的,而是一種基於雲的機器學習。它就像App標準服務一樣被使用。第三,每個企業提供的每個應用服務都是智慧化的,它不再是說我要定製一個服務需要昂貴的成本。每一個客戶都在享受定製化服務、享受定製應用。這是之後兩三年企業機器學習應用的趨勢分析。當然了,三年搞不定可能會是五年。

我的介紹就到這裡,謝謝大家!

2016-11-24-191798f58e-8aa7-4ed6-bf6f-60c

數美是一家由一線網際網路頂尖大資料專家團隊建立,頂級網際網路大佬領投的大資料企業依託積累的海量資料、核心技術,提供領先的大資料風控產品與服務目前已服務數百家客戶,覆蓋直播、金融、支付、社交、電商、遊戲、O2O等行業。

本文出處:暢享網
本文來自雲棲社群合作伙伴暢享網,瞭解相關資訊可以關注vsharing.com網站。


相關文章