在網路世界,資料就是金錢。作為全球最大的拍賣網站,eBay對這一點深有體會。眼下,eBay對各種線上資料的分析無所不至,就像在每個顧客前面安裝了攝像頭一般。毫無疑問,eBay擁有的資料量是驚人的。其每天都要處理100PB的資料,其中包括50TB的機器資料。可以說,eBay每天都面臨著天文數字般的大資料挑戰。

早在2006年,eBay就成立了大資料分析平臺。為了準確分析使用者的購物行為,eBay定義了成百上千種型別的資料,並以此對顧客的行為進行跟蹤分析。然而,這同時也為eBay帶來了新的挑戰。要知道,公司的資料量多到難以想象,沒有人能分析消化這麼多的資料,也沒有人能基於所有資料建立起模型。事實上,eBay真正應用到的,只是其收集的資料中的一小部分。“剩餘的資料,eBay或是將其丟棄,或是將其儲存起來。因為說不定哪天,科技實現了突破,這些資料就會變得有用。”eBay大中華區CEO林奕彰指出。

那麼目前,eBay是如何利用這些資料,來促進業務創新和利潤增長的呢?

為使用者“畫像”

eBay擁有近2億的使用者,網站的商品清單專案則有3萬多類。在平臺的日常交易中,eBay幾乎每秒都要處理數千美元。而這些交易資料,其實只是eBay全站資料資訊總量的“冰山一角”。

基於大資料分析,eBay每天要回答的問題有很多,比如,“昨天最熱門的搜尋商品是什麼?”而即便是這樣的簡單問題,都需要涉及處理五十億的頁面瀏覽量。從這個角度看,任何一個基本的業務問題,對公司來說都是一個相當巨大的問題。

就eBay如何利用大資料來增加線上交易,林奕彰舉了一個典型的例子。譬如,一位年輕的女性早上10點在星巴克瀏覽eBay網站,eBay應該推送給她什麼樣的商品呢?

“就這幾個資訊點,我們其實已經做了不少研究。”林奕彰說,“事實上,使用者早晨10點、中午12點,或是晚上7點,她瀏覽的商品是不同的;在餐廳或是在家裡,同樣會對瀏覽和搜尋產生影響;此外,還有使用者的年齡、當時的天氣等等,都會對購物產生影響。eBay要做的,就是學習不同情景下的不同購物模式,並推送給使用者最想要的商品。”

據悉,eBay可以從使用者以往的瀏覽記錄裡“猜”她想要什麼樣的商品,也可以從設定的成百上千種情景模型中計算出使用者可能的需求;或是對照另一位有著相似特點的女性使用者,看她當時買過什麼樣的商品,從而推斷出這位使用者潛在的需求。在綜合各種考量因素後,eBay的後臺需要在短短几秒內將商品頁面推送給使用者。這意味著,eBay的系統需要有非常快的運算速度。

這種運算模型,有相當一部分人為的因素。比如,機器可以蒐集使用者的上萬個資料,但eBay的工程師可以定義其中的100個資料為有效資料,而模型則建立在這些有效資料之上。此外,當計算機自動“學習”分析各種資料形成的趨勢時,eBay需要將機器學習的邏輯設定在與商品交易相關的行為上。

除了通過大資料為使用者“畫像”而向其推送有針對性的商品,eBay此前還嘗試利用大資料進行搜尋引擎的優化。

具體說來,eBay可以把握使用者的行為模式,使搜尋引擎更加“直覺化”。如果時間倒退幾年,使用者在使用eBay的搜尋引擎時,會發現它只能理解字面的意思,並按照字面意思尋找。很多時候,搜尋引擎並不能理解使用者的真實意圖。但現在,eBay正試著改變或重寫使用者的搜尋請求,增加同義詞或替換語句,從而給出更相關性的內容,並由此增加線上交易量。而這背後,統統離不開大資料的支援。

為商家提供“情報”

基於使用者購物的資料,eBay同樣會給商家提供各式各樣的“情報”。比如,eBay會告訴製造商使用者正在網上搜尋什麼商品,或是各種出口行業的資料,製造商會立刻對此做出反應。

很多時候,eBay會根據自身或其他電商網站的交易情況,向商家建議其應該銷售的品類。“這也是eBay大中華區正在做的工作,”林奕彰稱,“比如,一箇中國的商家希望將產品賣到澳洲,我們通過資料分析可以告訴他,他一個月大約可以賣出多少產品,定價應該在什麼範圍內,市面上還有多少商家在賣同樣的產品,他的市場佔有率大概是多少。”

在此基礎上,eBay還試圖算出商家的補貨頻率。事實上,海外倉儲是商家非常頭痛的問題,一旦計算失誤,便可能造成庫存積壓或缺貨。而在eBay,一旦使用者下單後發現商家缺貨,將是非常嚴重的問題。這種情況下,eBay可以通過過往的資料分析,得出商家第一批貨的大概銷量,以及按照過去銷貨的速度什麼時候應該補貨,物流的時間又是多久。通過這些資料的計算,eBay可以測算出商家補貨的邏輯。

這些資料分析,對於商家開拓新的銷售品類非常管用。因為通常情況下,商家需要四五個月,才能摸清楚一種貨物的淡旺季銷量,及其在各個地區的受歡迎程度。

當然,eBay所做的只是為商家提供各種潛在的商機,至於賣家是否願意投入生產,或能否找到合適的供應商進貨,仍需要他們自己去完成。很多時候,eBay推薦商家銷售200個新品類,而最終商家只能找到50種新產品的供應商。

除此之外,憑藉平臺上產生的各種資訊,eBay還可以扮演“品管(品質管理)”的角色。舉例來說,一個賣家要在eBay上賣1000個產品,當它賣到50個產品的時候,有5個產品出了問題;賣到200個產品的時候,有20個產品出了問題;賣到400個產品的時候,有40個產品出現質量問題,以此類推。而eBay要做的,就是在其早期出現問題的時候,就及時提醒賣家。

進一步說,當賣家賣掉10個、20個產品的時候,eBay就要根據退貨率、買家評論等把可能的問題檢測出來。與此同時,eBay會提醒賣家,讓其監督供應商改進品質,或選擇將商品下架,或是修改物品的描述。

在理想狀態下,這種品管系統會形成一個大資料的迴圈,並幫助賣家減少退貨,銷售更多的商品。假如賣家在收到這樣的通知後依舊我行我素,eBay就會認為這樣的賣家並不重視品管,到了一定階段,eBay會對其實施交易“配額”,限制其交易量。

“品管的難點在於,我需要通過資料模型在賣家交易量很少的時候就發現問題。這種早期預測涉及複雜的運算。”林奕彰表示,“一旦交易量大了,賣家自己也會統計退貨率,之前的損失也就無可挽回。”

試錯與挑戰

和其他線上交易平臺一樣,eBay對假貨亦十分敏感。眼下,公司試圖通過大資料技術,讓系統“智慧”地識別出假貨。

實際上,“網路打假”工作並不容易。要知道,假貨常常以各種形態出現在網路上,且屢禁不止。以Rolex為例,假貨商家可能在單詞中增加一個空格,也可能將其中兩個字母互換位置,甚至名稱里根本不出現Rolex,只是圖片展示出Rolex手錶的樣子。eBay上有如此多的品牌,自然有形形色色的假貨充斥其中。這種情況下,單是靠在商品名稱或描述裡抓關鍵詞,根本抓不住假貨。

而eBay眼下做的,就是通過資料分析建立起一種模型或規則,假如商家的交易符合這種規則或特徵,便有可能是在賣假貨。

打個比方,當一個賣家的商品賣的很便宜,賣得很快,但後面的抱怨和退貨很多,系統就會把這個“可疑”的模式識別出來,然後再由工作人員去判斷,這個賣家是否在賣假貨。換言之,“即便資料的量再大,賣假貨的人都有相對固定的模式。”林奕彰稱。而通過這種方式,eBay有效地鑑別出不少假貨商家。

不過,林奕彰並不諱言,這種大資料分析方法亦有其弊端。“就假貨問題來說,這種方式只能在事後將問題查出來,而無法事先預測。”他表示,“這不是那麼容易解決的問題,因為無論用什麼樣的模型去套,假貨交易總是能先騙你一陣子。”

除了分析的滯後性,eBay的大資料挑戰還體現在龐大的資料處理上。儘管企業資料倉儲為查詢提供了巨大效能,但它仍無法滿足eBay儲存和靈活處理的需要。要知道,這些系統的造價相當昂貴,當eBay每天增加50TB的資料時,其成本是相當高昂的。

在此基礎上,eBay收集的相當一部分資料,在目前看來是無用的資料。畢竟,資料採集得越多,變數越多,而由此帶來的“資料噪音”也越多,模型越失真。從這個角度看,eBay要做的是記錄那些有意義的資料,並銷燬那些不需要的資訊。問題在於,eBay要分析的85%的問題都是新的或未知的,“eBay並不知道哪些資訊未來或許會有用,”林奕彰坦言,“那些現在看起來無效的資料,明後年可能就會隨著科技進步被消化,我們現在只能先把這些資料儲存起來。”

但另一廂,假如將所有資訊都儲存起來,那麼eBay每個月都會新增數以億計的資料資訊。在如此浩瀚的資料海洋中,分析工作根本無從下手。因此對eBay來說,這是一個必須平衡的難題。

需要指出的是,eBay當下的分析模型也還不夠完美。無論是“猜”使用者,還是分析商家在eBay上的生意,eBay猜錯的情況非常非常多。對於這一點,林奕彰舉了信用卡的例子。在他看來,“銀行其實是運用大資料最厲害的,但無論風控模型怎麼完美,全球依然有2%左右的信用卡賠率。”況且,eBay用的並不是成熟機構認證過的模型,很多時候要靠自己去猜,那麼誤差也就不足為奇。

自:21世紀經濟報導