更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
友盟 +CDO 李丹楓
2016 年 1 月,友盟、CNZZ 和締元信三家各自擁有本行業強大資料資源的公司合併,組成了新的公司友盟 +,新生的友盟 + 資料體量突然倍增。截止 2018 年第一季度,友盟 + 服務 150 萬款 APP,710 萬個網站,每天可以觸達的裝置達到 14 億,每天收集的事件數以千億為單位,累積資料量以 PB 記。友盟 + 現在的存量一共有 55PB 的資料,如果拿一張 A4 紙,正反兩面寫滿數字,把 A4 紙疊起來可以裝 15 萬輛卡車。友盟 + 的資料倉儲裡面有多少張資料表呢?大概是 19000 張。對於資料的挖掘、分析和運算,每天的運算量需要 2 萬個計算單元,相當於 200 個地球上的 100 億人 24 小時的不間斷的運算。
驟然增多的資料量,一方面讓友盟 + 在眾多資料服務提供商中獲得了天然的資料體量優勢,另一方面,也給資料治理與整合、資料產品和資料團隊的調整帶來了前所未有的挑戰。
在產品層面: 我們開始面對的是如何整合三家公司的不同產品,這個挑戰是可想而知的。我們的方法是根據客戶群體對產品進行整合。 我們都知道友盟是移動網際網路企業及創業者提供移動資料服務與運營工具,是國內的綜合性移動開發者資料服務平臺;CNZZ 是中文網站統計分析平臺,客戶群體覆蓋中文網站及中小企業;締元信網路資料則為網際網路頭部企業提供一站式資料化解決方案,三家基於各自的資料輸出了很多資料產品,我們根據客戶群體進行了產品的整合。面向開發者的產品,如 App 和 Web 的統計,Push 和 Share,整合到 Dplus,為開發者提供一站式統計和運營工具。服務於新零售的產品整合到 Oplus,針對廣告主的產品整合到 ADplus,形成了我們的 Plus 系列資料產品。
資料整合方面: 原來的三家公司在資料服務領域是完全互補的,在資料上我們很少有共同的客戶服務群體,這就給我們資料整合減少了非常多的麻煩,不必為了某些標準去把某一家的資料整合進另一家的標準。在資料整合方面,友盟 + 運用域資料打通能力,將移動、PC、線下等跨終端、多場景資料打通,讓資料實現了全域整合,從而讓友盟 + 真正成為了一家全域資料公司。
資料處理方面: 合併後的 友盟 + 每天大概有幾十億個 ID 的資料回溯到資料訓練的平臺上,為我們帶來的是巨大的計算量和計算資源的佔用,對於資料工程師來說最重要的是需要協助資料科學家搭建有效的資料生產環境,保證計算的穩定性。因此,資料全量更新或按需更新的選擇直接決定了儲存和計算資源的消耗量,也就是成本。 我們提出了“程式碼健康度”的概念,讓資料團隊一定要用最高效的方法來實現計算。尤其在資料體量巨大的場景下,比如說 100 億個 ID,如果每個計算能提高 1%,能節省的資源是很大的。另外,在資料價值的挖掘工程中,我們也逐漸形成了一套高效的底層架構,例如資料清洗,打通後形成統一的寬表,建立 Universal User(device) Profile。絕大多數的資料探勘和建模都基於這個 Profile。實現了和產品層面的隔離之後,產品的更新就不會影響後面的建模。我們還提供了完善的回溯功能,可以讓使用者的 Profile 回到歷史上的任意一天(當然,有一個最早的可回溯點),這對嚴格意義上的建模是非常有意義的,有些場景是必備的功能,如在我們的金融風控場景中,是否可以回溯決定了模型效果的可信度。
對於 大資料的高效計算包括儲存的高效,查詢的高效和程式碼的高效。 剛剛提到我們的表有 19000 張,55PB,顯然,任何儲存的優化都會帶來巨大的經濟效益。例如我們所做的標籤 ID 化,就可以在很多表上節約 70% 的空間。高效的查詢 是指對每一個生產表打標籤,建立資料地圖,這樣我們就可以快速定位到我們想要的表。程式碼的高效,主要是通過建立開發規範。這麼大的資料量為避免資料重複開發和浪費,我們會對程式碼和命名進行有效規範。還可以通過方法論,比如說如何資料分層、統一語言,索引條件優先等級劃分,都需要記錄在開發規範中。每一段程式碼都會有健康度的評分,如果你的健康度低,你執行程式的優先順序就會降低。
第一個重要的節點就是三家的資料採集、傳送和處理的整合,對我們的平臺、工具、協議和底層的資料進行統一。這是我們資料打通,從而進行進一步資料價值挖掘的基礎。第二個節點是實時和離線計算的技術升級,在資料量激增的情況下保證服務的穩定性。第三個節點是在資料的內容上進行整合,我們將不同端打通,內容連線,建立全域畫像。第四個節點是我們在業務驅動下對資料質量進行評估,發現和解決在資料採集和處理流程中可能存在的問題,好的資料質量是我們好的服務的前提。
Q:請介紹一下友盟 + 當前的業務體系?主要包含了哪幾類產品?與競爭對手相比,友盟 + 的優勢是什麼?
友盟 + 的業務體系我們用 “三縱兩橫” 來闡述,三縱中第一部分是網際網路運營資料服務:Dplus,通過一站式 App/Web 資料採集,幫助開發者實現數字化運營和精細化分析;第二部分是新零售資料服務:Oplus,基於智慧感知裝置讓線下零售商實現線下資料可追蹤,同時將線上資料賦能線下,以消費者需求為導向,提升效率、降低成本、提升使用者體驗。第三部分是全媒體、全鏈路營銷服務系統 ADplus,幫助廣告主及代理商從觸達、認知及搜尋到品牌在全網的影響、關注度進行巨集觀監測。
兩橫則是:金融和手機兩個行業大資料解決方案。金融行業是去年才正式開始做的,在一年的時間裡取得了不錯的成績,我們從基於移動網際網路資料的風控產品開始,逐漸擴充套件到獲客營銷、二次營銷、貸中管理,今年還計劃開發貸後管理的產品。同時在今年,我們還推出了手機行業的大資料解決方案,以 7 億真實活躍使用者的全域資料為能源,通過 15 萬顆運算核心與資料引擎助力手機廠商實現從市場感知、業務與產品規劃,到產品上市、上市後運營等業務流各環節的數字化轉型。
對於友盟 + 而言,最大的優勢是全域資料,以及資料智慧的認知與能力。在全域資料方面,友盟 + 將 7 億真實活躍消費者的 App、PC、線下等跨終端、全場景的實時資料,通過全域資料打通技術進行聯結與融合,幫助企業 360 度洞察“人”,為企業與消費者通過資料更好地理解與連線:在資料智慧方面,友盟 + 提出全域資料*演算法*場景的理念,即通過全域資料作為企業的新能源,以資料技術與演算法模型作為企業的引擎,將企業與使用者接觸的場景作為賽道,幫助企業從數字化全面走向智慧化, 最終用資料智慧幫助企業實現增長、增值和升級。
剛才我提到我們的一個優勢就是“全域”。“全域”的最大挑戰之一就是資料的打通。我們開發了自有的資料打通演算法,同時借鑑阿里的資料經驗,基於全域資料能力,由於有了大量的高質量資料,模型可以達到約 80% 的 precision 和 80% 的 recall。
關於傳統企業應用好資料大家有許多共識,比如說打破資料孤島,管理層的支援,提倡資料驅動文化等,我在這就不一一贅述了。我想強調一點,就是打造“資料閉環”。也就是說在業務場景的每一個環節都可以收集到資料,從而可以真正實現資料驅動。舉一個簡單的例子,電商之所以做得這麼好,是因為做電商的每一個環節都有資料支援,從而可以進行優化。再試想線下的場景,哪個貨架停留的客流多,哪個商品被拿起的次數多,這些資料對於商家來說,是一無所知的。沒有資料,就無法談優化。所以,對於傳統企業來講,一定要深入思考,怎樣才可以形成“資料閉環”。 “業務資料化,資料業務化”,就是說的這個道理。這個不容易,但一旦你做到了,你就會在競爭中處於優勢。
一個資料產品成功的關鍵因素其實很簡單,是不是可以解決問題。這裡有幾個層面:l 第一,有沒有提高效率,或降低成本,或增加利潤,現在有許多資料產品是為了使用資料而不是去真正地解決問題。l 第二,你所使用的資料是不是能夠解決本質的問題,許多第三方資料公司把自己的資料包裝得無所不能,這是非常不切合實際的, 第三方的資料往往起到的是輔助作用,在使用這類資料產品的時候,一定要問清資料的來源、資料的特徵屬性,一定要能夠找到資料本身和要解決問題的相關性。就像你無法用棉花造出飛機一樣,每一種資料都有適用和不適用的場景。所謂“知之為知之,不知為不知,是為知也”,對應到資料的應用“用之為用之,不用為不用,是為用也”。
友盟 + 資料團隊有 40 多人,包括資料科學家、資料分析師和資料研發。資料科學家主要的任務是建模和對資料價值的挖掘。資料分析師承擔很多 BI 的工作,同時也對資料質量進行監督,根據業務的需求,對資料進行深層的分析。資料研發負責資料的整合、加工和提取,生成底層表格、支援業務邏輯和分析建模的需求。
首先是基本的資料提取、處理和分析的技能。從工具的角度來說,例如 SQL、Python 等;從基本的數學和統計方面包括,均值、方差、中值、correlation 等;從建模的角度來說如 LR、GBDT、CNN 等,還有對不同的模型怎樣評估,包括 precision and recall、false positive、ROC、KS 等指標。
在具備了這些基本的必備知識之後,我認為 作為一個在工業界的資料科學家最重要的能力是去發現問題,建立資料和演算法的直接聯絡,到進一步地去解決問題。 大家都認同資料是巨大的財富,可以給我們解決很多的問題,但是我們仔細看一下,真正的大資料和演算法能夠落地的場景還是非常有限的,特別是對於傳統企業來說。最近 IBM Waston 在美國醫院的受阻就是一個例子,雖然幫助醫院解決了一些問題,但代價是高額的成本。我在前面提到一個資料產品成功的關鍵是“提高效率,或降低成本,或增加利潤”。資料科學家也要有這種思路,要能夠從自己的金字塔中走出去,去了解和理解業務, 這是我認為在工業界的資料科學家的一個非常重要的能力。
這個影響是巨大的,在 AI 浪潮興起之前,大部分人理解的大資料應用(實際上也確實是這樣的)都是 BI(business intelligence)。BI,簡單講就是向過去看, 統計過去所做的事情和造成的影響,統計報表出來之後,我們再根據歷史進行對未來的決策。注意,這裡的關鍵點是“我們”,這裡人是決策者。而 AI 是向未來看, 機器取代了人做決策,機器人客服、人臉識別、到自動駕駛等等,都是這個場景。
今天的 AI 的三大要素是“資料”、“演算法”和“算力”,而在這三大要素中,很多人(包括我)都認為“資料”是最重要的因素。這是因為現在的 AI 模型的結構都包含大量的引數,而要讓演算法學出這些引數,就需要大量的資料。現在 AI 的普及,使得大家進一步認識到資料的重要性, 這是最顯著的變化。對於技術來說,怎樣採集(如 IoT),儲存和處理(如 Hadoop、Spark、Flink),建模(如深度學習),甚至於 AI 晶片等大資料相關的技術都有了很大的發展。在應用方面,許多行業也開始進入(醫療,教育)或者更深度地介入(金融)大資料和 AI。
友盟 + 的資料是關於網際網路和移動網際網路的運營資料,所以我們主要的工作是圍繞怎麼去建立裝置行為的模型,如果有業務場景需要裝置行為的資訊,我們的模型就有可能得到應用。友盟 + 的反作弊應用就是非常好的例子,由於有了裝置行為偏好,我們就可以去衡量一個裝置的質量,通過歸因演算法、智慧反作弊等技術,幫助客戶獲取真實流量。
在技術層面個人感覺美國還是有一些優勢的,他們有很多的公司會去做非常長期的底層的工作,學校和公司裡的研究院的資源比較豐富,也有不少可以安心做研究的人。
在應用層面,中國有非常大的優勢,我們有非常大的使用者群體,大量的使用者帶來了大量的應用場景。
我認為大資料領域最有待突破的是:模型的可解釋性。現在的人工智慧都是所謂的“弱”人工智慧,是利用大量的資料,訓練一個引數眾多的黑箱模型。這個模型是在建立輸入和輸出的“相關性”,而不是“因果性”。比如,你打著雨傘和你的鞋溼了,這兩個事件是“相關”的,也就是說經常會在一起發生。但是打傘並不是鞋溼的原因,下雨才是鞋溼的原因,所以下雨和鞋溼才是“因果”關係。為什麼因果關係這麼重要呢?是因為這是我們理解世界,從而進一步改變世界的方式。我們知道了植物是怎樣生長的,才有了萬畝良田;知道了電和磁的相互轉化,才有了萬家燈火;知道了鳥兒是怎樣飛行的,才有了飛機翱翔在天空。同樣,真正的智慧,是能夠幫助我們找到因果關係的模型,在很多的應用場景,可解釋性也是非常重要的,例如,金融場景中,我們要知道為什麼可以給這個人貸款;在醫療場景中,我們要知道為什麼會做這樣的診斷等等。
當然,模型的可解釋性可能需要相當長的時間。當下,我認為大資料主要的發展方向是在更多的領域找到真正落地的場景。現在在網際網路,金融應用得不錯,在醫療、教育也有好的開端。我們希望可以在更多的領域可以找到大資料的解決方案,標準是“提高效率,或降低成本,或增加利潤”。
友盟 +CDO 李丹楓
帶領友盟 + 資料科學團隊基於裝置行為資料建立風控資料模型,成功打造了網際網路金融風控解決方案。同時致力於在資料中摸索新的演算法或者模型,對不同領域進行資料創新。
在美國資料分析和挖掘領域工作 10 多年,曾任職於包括雅虎,微軟,FICO 等在資料應用走在前沿的公司,積累了豐富的資料探勘和機器學習的實戰經驗。