DI是什麼?DI與你我有著怎樣的聯絡?5月23日,在2017UBDC的主旨演講中,【友盟+】首席資料官李丹楓從解析DI開始,將我們帶入一個由資料智慧驅動的全新世界。

(圖為【友盟+】首席資料官李丹楓)

以下為演講實錄:

去年UBDC大會的主題是“無資料,不智慧”,經過一年多的努力,今年我們對資料和智慧的關係有了更明確的定義,即資料驅動智慧。這裡麵包括最重要的兩個詞,一個是資料、一個是智慧,當然我們談到智慧就不得不談在風口浪尖的一個詞“人工智慧”,人工智慧是什麼呢?作為一個理工男,下面講述的就是我心中的人工智慧,今天的人工智慧。

首先對學文的同學表示歉意,我一大早上不是要殺死你一億腦細胞。為什麼把這個式子放在這兒呢?它特別好地表達了今天人工智慧做的絕大多數的事情,接下來我具體解釋一下。

這裡面有很多引數,第一個引數是M,就是我們所說的模型,簡單來說,工業界40多年開始用模型,今天叫深度學習。這個模型包含有一些引數,有一些無引數的模型(大部分模型現在是有引數的),我選好這個模型,要去找到這一系列的引數來幫助我解決這個問題,我怎麼去找這個引數呢?我有輸入,有一堆的訓練資料,輸入包括有輸出,有輸入、輸出,輸入和輸出定義好了,我就說你去學吧。就像訓練小狗一樣,我們教它一些東西,給它一些反饋,這個反饋就告訴你,你做的事情是對的還是錯的,模型也是一樣。

當然,訓練模型沒有那麼簡單,如果這麼簡單就不需要我們科學家了,所以我們訓練模型的時候有很多技巧。第一個技巧,我們要定義損失函式,因為模型推算出一個東西不可能是完全正確的,總是跟實際的差一點點,怎麼衡量這個差別呢?由損失函式來決定,比如說大家用最小的方差,很多場景裡頭我們會加一些權重,這就是損失函式。

 

還有一個叫懲罰函式,這個模型我們對它的引數是有一定限制的,不能任這個引數想怎麼著就怎麼著,比如說有些引數值特別特別大,一般來說是不太好的模型,所以我們要給他一些懲罰,你訓練的時候要注意這些引數不要太大,這些合起來呢?這兒還有一個i,是樣本數,一個兩個樣本我訓練不了,現在的樣本上萬、上十萬、上百萬、上千萬或者上億,模型越多訓練的效果越好,把這個加在一起,定義了損失函式、定義了懲罰函式,有了輸入和輸出,我讓這個演算法去找吧,在所有的維度裡找到最佳的引數,這個就是你的模型。下面,再看一個圖:

左側這張圖是一個簡單的神經網路模型,是一個非常簡單的身體神經網路,複雜的有幾百層。我大概說一下這個模型是怎麼工作的,這裡面有輸入節點,就是模型的X,還有藏層、輸出層、神經網路工作原理非常簡單。模型訓練做的就是要把連線上面的權重引數找出來,有了輸入、有了輸出,有了資料,用訓練的方法,把這些引數找出來,讓模型根據我定義的損失函式達到最優。

這個是什麼呢?實際上大家想想,這個就是一個暴力的計算與記憶。當然我說這個話可能有點不太公平,因為這麼多資料科學家、這麼多年的努力,用暴力來形容不太公平。實際上,我們有一個聰明的、暴力的計算方法,我們要搜尋的權重的組合非常多,你怎麼能夠有效地找到它,實際上是今天大家解決問題時,運用的有效的找到引數的方法,但不管怎麼說,這個模型本身是一個計算與記憶的機制。

這張圖是眾所周知的一個公式,即愛因斯坦有名的質能方程,這個式子跟剛才的神經網路比起來弱爆了。你想想愛因斯坦用這麼簡單的方程涵蓋了物理界這麼多的現象,現在人工智慧做大量的資料,用非常複雜的網路來做到對這個事情的預測,比較起來差距很大。所以現在的人工智慧叫弱人工智慧。

所謂弱人工智慧,就是需要完整的資訊、完整的定義好的輸入和輸出,需要藉助非常強的計算與記憶的能力。我們可以想象,麥斯威爾和愛因斯坦的計算能力有多強?估計不及我們手裡的手機。跟弱人工智慧對應的是強人工智慧,在資訊不對稱的情況下,考驗的是大家的推理和解決問題的能力,這是我們做人工智慧追求的極致的方向。

 

譚鐵牛院士有一句話總結得非常好,“現在的人工智慧是有智慧沒有智慧、有智商沒有情商,會計算不會算計,有通才無專才”。現在很多人研究人工智慧就是某一個特定的場景下訓練一個模型專門為他來服務。而人的智慧是什麼呢?從小孩到長大思維不斷成熟,這是機沒法比的。因而,我們人的智慧是我們追求人工智慧的真正的方向。

 

我再回到這個公式,再重新回憶一下這些引數,第一組引數,第一個是模型,第二個是損失函式,第三個是懲罰函式,這三個是什麼呢?作為人工智慧資料科學家,我們天天琢磨的很多事就是給我一個問題,我選什麼樣的模型?我用什麼樣的懲罰函式,用什麼樣的損失函式?這就是資料科學家的缺點,好的資料科學家可能能選非常合適的模型,非常合適的損失函式與懲罰函式。不好的可能說我什麼東西都用我最熟悉的模型,這個就是資料科學家的區別。

這個大部分是什麼呢?實際上是計算能力,第一個是建模能力,第二個是計算能力。X跟Y這兩個是資料,我們有了資料才能訓練模型。對於建模能力和計算能力,實際上對於大家來說,競爭的戰場是平的,你可以有很好的資料科學家,我也可以有。目前世界上有名的資料科學家可能都被幾大公司招去了,你只要說有足夠多的吸引力,你願意付足夠多的錢,你就能招到合適的人幫你做這件事情,計算能力更不用說了,現在計算越來越便宜、儲存越來越便宜,所以計算能力大家都可以有,沒什麼太高的門檻。

最大的門檻是什麼呢?是資料,因為沒有資料,模型就是我PPT上列的這個公式,有了資料你才能把這個模型的引數找到,所以資料是最大的競爭壁壘。一個是你有資料,你有很多很好、很高質量的資料,另外一個是你對資料的理解。這是你和競爭對手區分的最大壁壘。

我前幾天看到極客的創始人張鵬寫了一篇文章,他說:“資料是AI的血液,一個滾滾流動的商業實踐帶來的資料,有時候比一個天才的科學家,或者一個領先的演算法對於AI的意義更大。”與我的理解不謀而合。

我繞了這麼多,講了這麼多,這個令人頭疼的公式放了兩遍,我要說明的問題是什麼呢?資料是驅動智慧非常重要的因素,也是競爭的壁壘。大家要重視資料,因為有了資料,才能做更多的事情。

下面我舉三個例子,大家應該不會陌生,第一個:谷歌。谷歌有7個叫10億使用者俱樂部,這個產品有10億人,包括什麼呢?谷歌的搜尋、Gmail、地圖、U2、安卓、Google play,他有這麼多資料就可以做好的搜尋和廣告。

第二個:淘寶。淘寶有4億多深度使用者,不是說一般的使用者,我在這兒買一次兩次東西,而是經常買。比如,我太太就是一個深度使用者,天天在淘寶上淘。所以依據淘寶資料資料所做的推送,能夠做到我們所說的千人千面,每個人開啟淘寶看見的東西都不一樣,它能夠給你推薦最適合你的產品。

第三個:今日頭條。使用者規模大,使用者平均使用時長76分鐘,使用深度非常深入,所以今日頭條可以做到非常好的內容智慧分發。

 

這三個公司就是因為有了規模可觀的資料、有了別人沒有的這麼大量級的資料,才能做到跟別人非常大的不同。當然了,你說這些公司他們已經積累了這麼多,作為我,我有一個企業,我很多問題,因為我不是他,我沒有這麼多資料,沒有這麼多的技術力量,怎麼辦?如何蒐集資料?怎麼分析?資料分了各個業務線如何打通?資料單一如何地全面瞭解客戶?AI大資料的概念不錯,怎麼來解決我們的痛點問題?在目前新一輪技術革命中,怎麼樣才能保證核心競爭力?怎麼辦?沒關係,看一個超人飛過來,上面帶著一個【友盟+】的LOGO。

 

【友盟+】的使命是創造你的資料價值,因為我們有這麼多資料,有這麼多經驗,我們希望拿出我們的資料、拿出我們的經驗幫助大家把這個事情做好。

我們的資料包括哪些類別呢?首先在移動端有125萬個APP、680萬個網站用我們的資料服務,我們每天可以蒐集到資料的裝置是14億。14億什麼概念?中國網民大概是7億多,當然一個人有多個裝置。所以【友盟+】基本上是覆蓋了全網使用者。我們每天處理280億的資料量。在基礎資料之上,我們有完整的資料業務線,今年有三個主打的產品,第一個U-Dplus是進行資料採集和決策的,可以把資料整個鏈路閉環都能覆蓋上;第二個是U-ADplus,廣告效果資料服務,不只是監測效果,投前、投中、投後的整個資料服務;第三個是U-Oplus,是我們基於智慧感知,用資料驅動的線下資料服務平臺,幫助線下的商家在資料革命、智慧革命的浪潮中保持不敗。在這三個大的產品背後,是U-DIP資料智慧平臺,我們的很多資料分析、資料處理、預測、智慧應用都是U-DIP大牛實現的。用我們的資料+服務的同時,會和阿里雲一起合作來提供服務,幫助大家解決生產和經營中的問題,能夠讓你利用好你的資料,能夠讓你出去再說的時候我們也用資料,我們也做AI,我們也用資料和AI解決我們的實際問題。

我接下來分享幾個案例,展現我們【友盟+】蒐集的這麼多資料在各個行業的應用情況。

第一個是我們的合作伙伴融360。融360CRO是【友盟+】做的早期專案,是在中國普惠金融這麼流行的情況下,藉助使用者行為資料所做的獨到應用。因為我們的地位是非常獨特的,其他人很難有這麼大規模的資料。而對於普惠金融來說,金融最重要的是風險控制,風險控制最重要的是資料。我們在融360平臺上推出了基於使用者網際網路和移動網際網路行為的風險控制分。我們發現裝置覆蓋率是大於90%的,基本上拿來一個裝置,或者使用者通過一個移動裝置來申請你的貸款,我們就可以找到這個裝置的相關資訊以及這個使用者在這個裝置上的行為資訊,這個涉及到覆蓋率,我們的資料體量非常大,覆蓋率特別高。此外,效果如何呢?我們可以提高風控效果20%。20%是在業內是非常理想的效果。這個專案就充分證明了我們用我們自有的資料在一個新的領域和合作夥伴一起來探索,實現了一個小目標,今年我們會在金融領域上繼續發力。

   

第二個合作伙伴平安科技。對於金融場景,我們跟平安合作的資料核心是什麼?我們通過對人的理解,去判斷哪些人有申請信用卡的傾向,哪些人有貸款的傾向,我們用這些標籤跟平安一起做了測試,發現在兩個場景中,我們的CTA,廣告花費明顯的降低,從35%下降到20%。

第三個是梨視訊,專案需要主要是推薦,推薦中有一個很大的問題是冷啟動,比如來了一個客戶沒有它的資料,有很多企業解決冷啟動的演算法,但再好的演算法也不如我知道這個人,你把這個人的鄰居拉過來,或者把他的好友拉過來說你告訴我他喜歡什麼,再好的演算法也比不過這些資料,因而我們用資料幫助梨視訊解決冷啟動的問題。

第四個是廣告投放方面的案例,我們希望把整個人群定向做得更智慧一些,現在很多方式是什麼呢?比如分析一下你的客戶群體,你的標籤跟其他人的標籤有什麼不同?如果發現你這兒男性比例比較高,就給你投男性。這裡面有很多人工因素的介入,有很多的主觀判斷,我們希望能讓機器來做,這才叫人工智慧,機器替人做事。我們要做的就是,讓機器根據我們後臺的大資料判斷核心使用者,哪些人與你的客群最相近。這樣做的效果非常明顯,比如我們服務閒魚遊戲後,其獲客成本降低了50%。

第五個是汽車之家。汽車之家在金融領域有精準營銷的服務,運用我們的資料後CTR提升了100%。

上面的分享是我們過去一年多裡做的一些案例,今年【友盟+】會以更加開放的心態跟大家合作,希望大家從業務上,資料上,技術上,用資料和人工智慧解決使用者的痛點問題。

現在大家都說人口紅利消失了,但是資料的紅利已經來臨,希望我們與大家一起跟發掘資料的潛力,把資料作為第一生產力。