北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

AI前線發表於2018-03-14
AI 前線導讀:電子商務 (E-commerce) 在當今發達的網際網路背景下正蓬勃發展,而近兩年火起來的資料科學和 AI 技術將會讓電商行業如虎添翼,茁壯強盛。AI 前線請到了在電商領域經驗豐富的講師和大家交流分享他對北美電商行業的現狀觀察,探討行業中代表性 AI 技術前沿(eg. 機器學習 (ML)/ 深度學習 (DL), 語言處理 (NLP))和實踐案例,並從技術的角度展望電商行業未來的發展趨勢。

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)

宣告 | 本文為 AI 前線獨家整理,未經許可,不得轉載!

文字版如下:

Hello,大家好,我是 Wenkel。今天很高興能借貪心科技這個平臺來和大家交流分享,我在電商這個行業的經驗和體會。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

我個人之前是在南加州的 KPMG 做資料相關的資訊服務,後來轉到 Revolve,就是洛杉磯最火,北美也是挺流行的一個時尚電商做 Fashion 相關的東西;在去年我又跳槽到了 Beverly Hills,就是比弗利山莊的一家紅酒電商,名字叫做 Drinks,是一個創業公司。

今天是女神節(3 月 8 日),想必女神 (生) 們對電商應該是一點都不陌生。那麼對男同胞們,想對電商有進一步的瞭解也是不無益處的。所以今天我們的主題是電商新寵,就是資料科學和 AI 技術。這兩大行業在這幾年是洶湧澎湃,電商也肯定對他們有很大的青睞。

電商的分類與應用

那麼先來看一下什麼是電商以及北美電商的分類與現狀。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

什麼是電商呢?我個人認為這個下面的定義比較妥當,它是一個:Business model enabling a firm or individual to conduct business,就是可以讓商家、一個公司企業和個人之間產生商業的交易,是通過一個 electronic network,typlically 就是我們所熟悉的 world wide web,是網際網路 internet。

電商現在已經是無所不在了,可以說是貫穿於大家的吃穿住行,就像右邊這個圖畫的一個購物車,什麼都是可以和它離不開,buy and sale 買賣都可以在購物車裡面進行,或者跟它相關。

我們來看一下主要的傳統的電商的分類是有四大類:B2B、C2C、B2B 和 C2B。它最重要的兩個點一個就是 Business,就是 B 代表商家企業,還有一個不可缺少的部分就是我們的 Consumer。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

Business-to-Consumer

一個最常見的 Business model 就是 B2C,所謂的 商家和個人之間的買賣交易。這裡舉一些例子,北美的話,目前最大的兩家應該都是比較有耳熟能詳了,amazon.com 和 Netflix。

amazon.com 股票已經是從去年的 九百塊漲到了現在的一千五、一千六,估計會很快翻倍,它的價值是越來越高。那 Netflix 是做 Video,就是視訊類的電商,之前是從一個小光碟寄到家裡,只要是會員使用者就可以每個月免費的選片,換想看的電影,現在已經變成了是直接在網上視訊可以觀看。這兩家就是目前最典型的 B2C。

那傳統行業來說,像沃爾瑪,Walmart.co,還有塔吉特 Target,Best Buy 百思買,他們都是傳統的線下的零售行業,現在也是都迫不及待,或者說必須被強迫著弄在網上做.com 的各種買賣,你也可以在網上下單,瀏覽商品,直接去店裡配套。

Consumer-to-Consumer

第二種常見的模式就是 Consumer-to-Consumer,所謂的 個人與個人之間的交易交換,這個圖畫的比較潦草,但意思大家應該會很容易理解。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

這個 Consumer-to-Consumer 和之間交換的鼻祖應該是從易趣 EBay 開始,個人把自己想出售的物品放在網上,EBay 提供這個平臺,可以讓其他人去購買,去競價這些物品。

這裡還有其他例子,像 airbnb 這是最近幾年流行的灣區獨角獸公司,是做閒置的房屋還有個人的空間的一種租賃,把使用者覺得多餘的或者暫時不需要的房間、房子可以通過這個平臺租給其他人。

Etsy 是個比較有意思的 DIY 的愛好者,也就是手工愛好者 APP 交流的網站,你可以把你做的藝術品、純手工的東西放到這個平臺,讓其他的手工愛好者、藝術家互相交流買賣。

Uber 對於大家來說應該是很熟悉的,像國內的滴滴一樣,滴滴已經把它的中國業務給合併了。Uber 剛開始是從做個人的私家車的搭車業務,或者是臨時司機,幫使用者搭順風車的服務。現在它已經開通 Uber eats 開始做外賣,像美團、餓了麼一樣,它也是可以又接客又送貨。

這邊我想提一下元老級的 amazon.com,它開通了 Prime now 服務,也開始嘗試食品業、餐飲業的服務,蔬菜、水果都可以賣,使用者也可以在 amazon 上面開自己的網店進行交流。

Business-to-Business

第三種型別,就是 Business-to-Business B2B,所謂的商家與商家之間直接的交流,就是企業級的

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

我先舉個例子, amazon web services 就是 AWS,也是 amazon 旗下的一個雲技術提供服務中心。

AWS 長久不衰的幾大產業:

第一個就是 資料庫,快速的並行的資料庫的連線比如 Redshift,這是雲端的;

第二種就是 儲存,S3(Simple Storage Service),這是雲端的儲存,它自稱是沒有限制的,可以無限制的儲存,只要你付費;還有 EC2(Elastic Compute Cloud),就是彈性的雲端計算,它是專門做企業級的伺服器,像我們公司就是用了很多 EC2,很多 Compute Cloud 在雲端的伺服器,這樣我們就不用自己再開一個機房,或者是開一個資料中心去存這些資料和網頁的伺服器,只要付錢給 Amazon 他就可以保證你能暢通的執行,這是 Amazon 是絕對盈利的部門。

微軟也開通了 Microsoft Azure,雲端儲存、雲端計算相關的服務,應該是跟 AWS 是相競爭的,他們也是差不太多的內容。同樣 Google 肯定也不會閒住,他們也是提供了 Google Analytics 服務,但這個稍微有點不一樣:GA 不是雲端的伺服器的 solution,不是解決這種問題,它主要提供的是一種 tracking,資料流的記錄。怎麼說呢?相當於你在各種電商網站的一舉一動,比如說點選哪裡、瀏覽多長時間、用什麼樣的裝置,是平板還是電腦來瀏覽,它都會把這些所有的使用者的行為全部記下來。很多電商網站都會用 GA 來做相關的 reporting,就是資料的分析和處理。

這裡還有一個例子是 Square,它是也比較有意思新穎的一種 B2B model,主要是用在中小型的商家,比如 food truck(流動餐車)那種在北美很常見的移動型餐車、個體戶,他們可以通過手機端,現在也有使用 NFC,或者 Apple pay 這些手機的網路連線、4G 連線進行刷卡的服務,Square 方面會收取一定的服務費,但是這個就很 mobile,很移動性,不需要專門連到 POS 機上面。

Consumer-to-Business

最後一種常見的分類就是 Consumer-to-Business,顧客和商家之間的的交易

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

舉幾個常見的例子:

第一個是 Google 的廣告部門。在北美開啟免費的網頁,或者免費的 APP,雖然很多網頁或 App 上面說是免費,但是它是自帶廣告,這些廣告都是用 Google AdSense 提供。

舉個例子,在網頁的左下腳或者右下腳經常會彈出一些廣告連線,一般是 AdSense 自動決策,幫助篩選出來你可能感興趣的廣告。你點選的這些廣告,實際上是相當於是幫 Google 掙了一些廣告費,但是你也是在使用免費的功能,所以其實你就花了自己的時間去交換了免費的功能。

下面這兩個例子應該比較好理解:Survey Monkey、Survey Gizmo 是做商業調查的,通過使用者在網上完成調查以後,商家得到反饋就會付錢,相應的佣金到這兩個平臺上。作為消費者,你如果花了時間,還有你的個人資訊去做這些調查的話,你可能也會得到一定的報酬,像打折卡、打折券、代金券,不一定是現金的回饋,這是從 Consumer 角度出發到之間的合作。

資料科學和 AI 技術在電商的應用

我們下面再看一下資料科學和 AI 技術在電商的應用。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

資料科學這裡說了,也是資料驅動科學,Data driven class,它是一種跨科學的方法,通常它是結合了多種演算法和系統領域,用於提供資料各種形式的資料中提供支援和間接,那麼就像左邊這個示意圖一樣。

通常來說電商行業從剛開始第一步,Customer 是在電腦前瀏覽物品下單,放在購物車,然後刷卡、買單,到下面這個單被接收,刷卡成功,發給你一個確認郵件,顧客和商家都接到相應的郵件,在 warehouse 去打包準備,發貨。

整個流程會產生很多的資料,這裡列舉了像 Traffic Data,流量資料,比如說 User 的 Activity,即使用者的行為,包括 Impression,看到的印象流量;Click Though,點選的行為;Session 就是花多少時間在看相應的物品;Email Activity 就是郵件端的 traffic,包括了開啟點選,還有訂閱,或者取消訂閱,這些都是流量資料。

相應的交易資料有這樣幾種:這裡主要的例子是 Order History,就是下單的記錄,買賣過什麼樣的東西;Membership Subscription 就是會員訂閱,從什麼時間開始、訂閱多久、是什麼樣的會員。

還有使用者資訊資料,使用者資訊就是個人相關的,這裡我列舉的例子就是 Demographic 和 Geographic。Demographic 是人口調查,比如使用者的性別、年齡、還有收入情況,住在哪裡、有沒有買房、有沒有車,這些都算人口普查資料;Geographic 就是地理資訊,你的常用住址是住在大城市,還是二三線城市,或者是在郊外,這些是地理資訊。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

同樣呢,每個顧客都會有自己的 Traffic/Transaction Data,就是瀏覽的資訊和下單交易的資料。在電商裡有很多種不同的資料,資料科學 AI 技術就應用在這裡,就是從資料裡面提取出知識和一些有用的見解。

下面我們來具體看一下比較有意思的三個例項。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

  • Amazon GO,就是今年年初亞馬遜才正式對廣大人民群眾開放的;

  • Smart Speaker 是我們現在已經比較流行的智慧音響;

  • Netflix Artwork,之前有導師也提到過怎麼樣做使用者級的推薦,關於影片的推薦。

Amazon GO

Amazon GO,它是一家無人商店,國內像阿里巴巴也有開這種相應的無人商店,估計是差不多的技術形態。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

Amazon Go 目前在西雅圖開了一家試用,據說進門是需要排隊的,因為想去看的人太多。

像這一幅圖展示的,這家店沒有具體的營業員在出門的時候做結算,它主要的技術,我這裡查了相關資料是說有 Computer Vision 做動態識別、用 Deep learning 做動作的一些行為判斷,還有各種 Sensor、Sensor Fusion 進行會員身份和物品的探測。

進門時候是要下載一個 Amazon GO 的 APP,掃了以後就可以通過這個 Sensor 把使用者是什麼樣的形態、相關的資訊、買過什麼東西、是會員還是非會員都查到。掃了二維碼以後,使用者就可以進入。進去以後,天花板上應該到處都是攝像頭,照片裡沒有體現,但是你的一舉一動應該都是被完全記錄下來的。

我們先看一下 Computer Vision 動態識別,這個技術的核心是怎麼回事呢?

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

Computer Vision 它主要的技術核心是用卷積神經網路,就是叫做 Convolutional Neural Network。

這裡舉一個簡單的例子,就是從最基礎開始,通常一幅圖片,一個英文它可以分成三個顏色:RGB;有些時候你可能會有些圖,有些透明度:RGBA。每個 RGB,紅綠藍都會有相應的數值,卷積實際上是對每一層的顏色做了一個 fillter(濾鏡)。

這裡我舉個例子:用 3×3 的濾鏡,濾鏡的意思是想把影像的各個框框角角都可以把各個框角的 feature(特徵)給抽取出來,像圖中描述的,它將 3×3 的濾鏡從左到右規定一個 Stride(步數),這裡的步數應該是 1,從左到右再從上到下,全部掃出來以後,相應的圖層就會簡化成一個 Convolved Feature,就是一個縮小的矩陣。那這種矩陣通常可以做卷積層,就是 Convolved。

像這種套用濾鏡做卷積,也可以用簡單的 Max pooling,直接取它的最大值,這裡的例子是 2×2 的濾鏡,和兩步的部署,在每個 2×2 的框裡就取最大的值,像這個框我們就取 6,相應的 8,每一個圖層裡面取最大的 Value 值。這種做法就是幫助我們可以減小整個圖片,把圖片的各種顏色的各種特徵提取出來。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

從這裡看到,如果用不同的濾鏡和不同的步數可以得到縮小化的矩陣圖,然後我們可以相應的圖層,做 convolution 和 pooling 以後,放到不同的矩陣,這樣直接輸出到下一層神經網路就可以把它從各個角度、各個方向相應的特徵都提取出來。

這裡的例子,就是卷積神經網路可以做的,把一幅靜態的圖片分成 3 個圖層以後,每個圖層做卷積和 max pooling,然後提取它的最大的特徵,再做幾次的卷積和 max pooling,可以做不同的結合,通常來說這樣應該是可以起作用。到後面,把它們全部進一步的壓縮減小,最後可以告訴你這個圖裡面它是有狗還是有貓,還是有船和鳥。

每一個識別帶有一個概率值,概率值就是越高的概率越大,說明這個圖片裡所有的物品的概率就越大,或者說就可以確認這個圖片裡面有什麼樣的物品,這裡是船,可以看出來它是的確有兩條船。

剛才說的卷積神經絡它是一個靜態的圖片的一個判斷,就可以判斷圖片有什麼樣的東西,實際上 Amazon GO 大家都是移動的,挑選商品的時候都是走來走去的,我們必須要進一步的利用 CNN 卷積神經網路的動態識別。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

動態識別演算法也是有一段的歷史,近十年發展的很快。簡單介紹一下從剛開始的 Sliding Windows,一種滑動視窗的演算法,它的概念就是:每一幅靜態的圖片裡,定義一個像濾鏡一樣的視窗,在這個視窗從左到右,從上到下不斷的掃描,每個視窗都會做一個判斷,每個小視窗都有對應的圖片,來判斷這裡面有沒有我想要的物品。這裡是判斷有沒有車。

滑動窗體演算法中的窗體基本上可以固定掃動,一直到掃描到目標物體,比如這輛車的匹配度是零點九幾,那就可以找出最高概率的這個視窗,進而確認這裡確實是有一輛車。

這個演算法的缺點就是會非常的效率低下,因為剛開始一幅大圖把它分解成很多小圖,不斷的掃描,對計算能力來說也是個挑戰,因為要花很多的時間不斷的掃,掃到還要判斷哪個圖片是最有可能有這個物品。

到最近幾年來比較流行的演算法叫做 YOLO,就是 You Only Look Once,只掃一眼。它的意思是說給你一幅圖片,某個時段的樣片,你可以很快的去判斷這個圖片裡面的物體。

它是怎麼實現的?主要的精神是說把這個圖片按照網格(grid)分析,分成了很多小網格,在每個網格里判斷物品的重心(Center)會在哪裡。我們就用這個車作為例子,判斷這些重心在哪裡。同樣它也會判斷小網格里面有沒有目標物體,如果有的話就會提供一個很高的概率。

當把這些發現有車的小視窗全部合在一起,變成一個大的視窗,那就需要設一個相應的一個域值,域值超過一定的量,說明物品確實存在小視窗。把小視窗全部連線起來,就會得到大一點的圖片,同樣再通過 CNN 做一次判斷,判斷這是不是對概率有所提高,或者降低,這樣就可以知道:大圖通過每個小圖拼湊起來的應該是個完整的物品。

當然了,這裡面還有很多複雜的過程,比如說有可能會發現其他框也可以體現一個車,可以有很多的連線各種小的 grid 也可以得到一個比較完整的 object(物體),你就要判斷哪一個框是最能代表這個物品的。

總而言之,有了 YOLO 這種演算法可以再加上目前最火的 GPU,可以很快的把動態的圖片提取出這個物品的小框,可以確定是什麼樣的物品,是人、還是商品,這樣的話,可以很快的確定這張圖裡面的使用者有沒有拿東西。

我們再繼續看一下 Patent,2014 年 Amazon 就已經申請了相關的專利。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

可以看到:每一個物品它都是有編號的,攝像頭還有網路都是有相關的程式碼,錄影機、攝像頭全部都可以實時的處理,顧客每走到不同的貨架旁邊取相應的貨架的一個編碼,在使用者取了之後系統就知道這個物品是否還存在,它的重量會變化,它相應的影像也會有變動。

每個物品都會有自己對應的編碼,可以幫助系統來判斷物品是不是已經被拿走。所以這裡可以判斷商品的資料來源就有很多,首先從卷積神經網路得出的圖片的判定,還有重量和壓力的變化,物品的格間是不是有東西在,同時還可以結合使用者過去的交易記錄來判斷它是不是有交易的行為。

這裡也可以用到 Deep Learning,就是深度學習,作為 input 可以判斷出,使用者是有購買或者是有拿取得行為,或者是不是放回去,從而做出相應的決定。

Smart Speaker

我們接著講 Smart Speaker。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

從 2014 年開始,Amazon 就投入了大量的資金,研發出 Alexa 這個智慧音響的產品,然後緊跟著大家發現這個市場特別的好,Google 也推出了 Google assistant,微軟也是在 2016 年就推出了音響 Cortana,好像不是特別著名;到去年為止,亞馬遜又提出升級版本,推出了 Show 還有 Look 這種帶攝像頭的產品;蘋果也推出了自家的 Homepod,也是個智慧音響,好像就是今年會推出它的更新版,和 Siri 聯絡在一起;三星也是相應的推出 Bixby,廣告上也經常在提到。

智慧音響是非常火爆的產品,各大電商技術巨頭都推出相應產品,幫助大家在網上下單,買賣東西。那麼我們就專注一下 Amazon Echo 這個最先驅的產品,或者說從 Echo 開始智慧音響才開啟了這個市場。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

Echo 現在的功能已經非常的強大了,影像化的它可以連上手機的各種 APP,聽音樂、聽電臺、聽新聞、看電視、叫車,放在家裡可以用來看 Amazon fireTV,同時智慧家電像溫度開關,還有家裡的電燈開關,都可以通過智慧音響去控制。

主要的技術背景這裡我們應該看得到,就是語音識別和語音分析。語音識別就是通過不管是英語還是中文,還是其他阿拉伯語、日本語都可以讓智慧音響能瞭解到大家想要做什麼樣的事情。

這裡介紹一下語音識別的技術,近幾年也是發展迅猛:

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

從剛開始把每個語音波段,像這幅圖裡面語音波段提取相應的音素叫做 Phoneme,每一個 Phoneme 提取特徵,就像我們拼音的母音、子音,一些比較有代表性的發音,就是由音素組成,把這些元素提取出來,拼湊成相應的字,或者片語,這是剛開始的語音識別的比較工程化的技術,現在已經發展到用 RNN,就是遞迴神經網路。

遞迴神經網路它不同於傳統的神經網路,它是有遞迴性的,意思就是說:每一個神經元(見上圖),他們是互相連線的,上一層的 a,也就是啟用函式,它處理完的輸出可以直接輸出到下一個函式,這樣不斷的迭代。同時,每一個相應的輸入,不同的單詞、片語都會分別輸入到每個神經元裡面,但是這些神經元又是跟之前的神經元相連,更復雜一點的網路,我們可以說從正方向相連,也可以從反方向互相聯絡。

最後訓練成功的這個網路,每個神經元都會輸出 Y1Y2 這樣的值,就會判斷每一個 Y 代表什麼意思。如果你需要提取名字的話像“Teddy bear”輸出可以這樣表示:0011000。現在更復雜的情況,Y 可以變成一整個向量性的輸出,它在一個詞庫裡面,比如“Teddy”對應的值為 1,詞庫裡面其他不相關的詞就會判斷為 0。

意思就說它判斷出來,某個詞在相對應的階段的語音,接近於對應的單詞。它直接跳過音素這種比較傳統的步驟,直接通過整個語音的長度和廣度,就可以判斷出這段聲音的檔案它代表的什麼意思。這個就是 Voice Recognition 的大概的工作原理。

有了 Voice Recognition 語音識別,我們可以進一步的識別出了相應的文字就可以做 NLP,自然語言分析,也是語義分析。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

語義分析也是很熱門的學科,可以做各種各樣的事情,比如說最常見的:

  • 詞頻統計,通過公式算詞頻在某個檔案、某個文件裡面出現多少次,或者是統計它在這篇文章或者整個文庫裡邊,它出現的頻率做一個層級,就可以算出它正交化的詞頻統計。有了這個相關的資料可以作為資料輸入。

  • NER 就是 Name Entity Recognition,是專門做名字、名詞相關的物品的一個識別。

  • POS 就是 Part Of Speech,詞性解析,像中文的主謂賓是主語,在英語裡邊就是形容詞、名詞、代名詞。

  • N-Gram 就是組合詞頻,比如:Cat 就是一個單詞, Running Cat,就是一個片語,它是有兩個單詞進行,就是 2-gram,N-gram 就是把這些高頻組合的詞去挖掘出來。

  • Word embedding 很有意思,可以把各個詞,按照它們的類別進行分類,比如 Man、Woman 可以按照性別等等進行分類,可以把它作為一個相關性的向量展開,這就是單詞嵌入,每個詞就賦予了更深的意義。

有了以上的這些,我們就可以做進一步的分析,比如情緒分析,喜歡還是不喜歡,正面的色彩是負面的色彩,像一些打分系統,就是用情緒分析來做。

也可以繼續做 GloVe/Word2Vec,用的是 Word Embedding,把詞展開到對應的向量空間,從而可以判斷這個它在整個句子的成分,或者說跟上下文相關,在一段內容裡表示的具體意思,或者對將要出現的下文做個判斷預測。

同樣還可以開發聊天機器人,有了這些 NLP 的手段可以去跟真人聊天,或者是解決一些簡單的真人的問題。比如開燈關燈、開電視,從語音分析裡面提取想要的重點,達到要完成的願望。

Netflix Artwork

我們再最後看一下 Netflix Artwork。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

也是挺有意思的一個例項,用上了資料科學和 AI 技術。上圖左邊的是一個在北美挺有名的科幻電視劇,主要的情節是小朋友到了虛幻的空間探險,從真實到虛幻。

對不同的人群來說,這些海報應該怎麼樣宣傳?這裡就可以把影片的各個情節都提取相應的插圖作為海報,喜歡恐怖片的朋友可能會看帶血腥的,或者帶火焰的;喜歡小朋友的觀眾可能看到有很多小孩的海報;還有個人喜歡某一個明星,那麼他個人的海報作為粉絲你應該是感興趣。

這裡需要一個有效的推薦引擎來給使用者推薦,使用者看了這個宣傳海報以後,是不是要去點選播放。

傳統的方法就是首先收集資料,建好模,做好各種 A/B testing,然後把這個 Model 正式出品,執行在前端。這個時間實際上是會很久,短暫來說可能要花上幾星期,可能也會是數個月。在這段時間內,可能使用者的喜好就會發生很大的變化,可能在最後把這個模型推出以後,跟之前預測的使用者在這個時間點的品位又不一樣,模型反而不清晰,產生很大的分歧,並沒有達到想要的功能,或者並沒有推薦到使用者真正喜歡的東西。

Netflix 最新的演算法是一種強化學習的手段,叫做 Reinforcement Learning,它的主要特點就是:可以快速的迭代,持續的優化。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

我們來看一下它是怎麼樣實現的,從簡單開始,它的核心思想簡單來說是:多臂頻寬(Multi-Arm Bandit)的演算法,在 RL 裡面定義一個 state,通過 reward function Q,就會得出 reword 是多少。像這個章魚一樣,每執行不同的步驟就會有不同的效果,每一臺都像賭博機一樣,啟動了賭博機 A 和賭博機 C,可能會輸或者都會贏,value 都不一樣。

上圖中的公式在這裡就定義了:功效應該等於 reward 加上γ乘以未來的功效。假如γ是 0,就不考慮未來期望值,上一次得到的 reward 是多少,就一直按照這個方式去進行,不會去考慮其他的可能性。

現在看來要達到最好的辦法,Netflix 採用了一個叫做 Contextual Bandit,環境頻寬演算法。

北美電商真的落後於淘寶?亞馬遜爸爸表示不服!

contextual 實際上是來定義使用者是一種環境變數,每一個使用者都有不同的背景和喜好,那這裡就把剛才的公式複雜化,加入了 learning rate,意思就是說 Customer 它的未來的這個 Q,是需要通過建模來達到通預測的功效。

加入了 learning rate 之後,α如果等於 1,就可以去掉掉兩邊,換成剛才 MAB 演算法。如果模型不需要太考慮未來,那就用剛才簡單優化演算法,按照每一次的結果,來選每次得到最高效用的那個模型;如果想讓 RL 模型去學習更多、探索更多未來的未知的情況,假設α不是 1,這個時候 Q’ 的作用能夠體現出來。Q’是用一個類似於深度神經網路這樣的模型來做預測,這裡舉的例子就是把客戶的瀏覽記錄,還有個人的背景,還有可能一些像年齡性別這些相應的資訊作為輸入。也許你能夠獲得很多顧客的資訊,可能是百萬級,用這樣的方法對這些資訊做一個深度學習的 Training。

我這裡是舉的例子是股市交易,有相應的 budget 和 shares,加上交易的記錄,可以做出一個深度學習的網路,它可以做出決策:你需要買還是賣,還是 hold。它這個例子呢,在這邊就是最後可以用 Q’作為未來回報的預測。有了整套系統,你知道了近期的 return,然後又可以預測的未來的 Return,當然這個 Q 太初級,可能要在不斷的迭代候才可以正式使用,這樣的話,就會比剛才提到的單一的建模考慮到更多的變數,它會更加快速的迭代。


相關文章