今天穿什麼?阿里AI小助手——滴搭告訴你!

陳雯發表於2018-07-19

自從去年“魯班”AI設計師完成了1秒8000張海報的壯舉,團隊的小夥伴們開始思考如何讓海報變得更加美觀豐富。其中一部分同學開始做商家版的智慧設計,取名“鹿班”,為千千萬萬的商家設計更加精美的圖片;而另一部分同學嘗試用AI產出更加豐富的圖文內容,成為陳列師、內容運營的好幫手,這部分工作,取名“滴搭”。

〇、前言

圖片描述

滴搭,是圖文演算法平臺化運維的一次大膽嘗試和穩定落地。它以深度學習網路為基礎,以開放式的生產平臺為載體,賦能運營、賦能達人,支撐以多商品搭配形式為主的圖文內容生產。從2017年2月開始,滴搭的演算法技術陸續在淘寶、天貓的多個業務上落地,橫跨多個行業,並在大促中承擔使命;輔助數萬名達人生產搭配幾千萬套,覆蓋商品數百萬,服務商家數十萬。

滴搭在三個方面做出了貢獻:

1、內容化生產:以深度學習網路為基礎,廣泛收集商品資訊、使用者資訊、運營知識作為輸入,協助內容生產,生成質量和達人相當。圖文演算法應用到多個行業的多個業務中。

2、平臺賦能:演算法和工程結合,運營可在滴搭平臺選品、生成搭配、個性化投放,一站式管理。

3、效率提升:全站達人日均生產幾千套搭配,演算法小時生產百萬套搭配,生成效率數量級提升。演算法搭配擴充了投放總池子,使得個性化效果得到提升。

一、滴搭平臺簡介

滴搭是運營前臺、演算法平臺、合圖平臺、個性化投放等等多個平臺和演算法的統一稱謂。
運營在前臺做完選品,經過深度影像處理和搭配演算法,學習出可搭配商品的特徵表示。當一件或多件商品作為觸發請求搭配時,可以從百萬級的商品庫中找出與之可搭配的、符合一定運營規則的其它商品,並根據觸發商品和產出商品的資訊,生成描述性標題。最後經過智慧排版技術,合成符合視覺審美的展現形式。生成好的搭配經過推薦演算法,個性化地投放給使用者。以下為滴搭後臺的部分效果展示:

圖片描述

滴搭平臺經歷了幾次較大的演算法改版,現在基於淘內的優質搭配已經學習出了一套比較成熟的演算法。除了保證一套搭配中的個體風格、顏色、配飾等等做到貼合,滴搭還吸取了運營、達人的經驗,嚴格按照成套規則進行產出,例如在服飾領域,上衣+下衣是合理的,但是下衣+裙裝是不合理的;在登山場景,帳篷+手電筒+登山服是一個合理的組合,而燒烤架不是必須。

在第二章中,我們將重點介紹滴搭的演算法。第三章介紹我們依賴的平臺。具體的業務示例請移步第四章。第五章將闡述未來工作。由於我們涉及的行業很廣,圖文演算法的應用業務非常多,為了更好地聚焦於演算法本身,以下介紹若無特別說明,將以服飾行業的搭配業務為例。

二、滴搭演算法

滴搭需要完成搭配圖片生成、搭配描述生成兩部分工作,因此我們分別在圖、文上設計演算法框架。底層的資料是公用的,包括商品圖片、商品標題、運營輸入以及其他side information。在這個資料之上,我們先完成搭配圖片的生成,再對該搭配進行文字描述。

在圖搭配的演算法中,我們用CNN(Convolutional Neural Networks)進行圖片預處理,以DSSM(Deep Semantic Similarity Model)作為基本框架,在此基礎上嘗試了兩種搭配邏輯演算法:第一種是基於LSTM(Long Short Term Memory)的序列化搭配生產,第二種是基於DAN(Deep Aggregated Network)的無序列化搭配生產。在產出圖搭配後,我們將產出結果結合文案輸入語料,輸入文案描述模型CPGN(Context aware Pointer-Generator Networks),產出文字描述。最終的結果裡包含圖文內容,是搭配的整體化描述。

圖片描述

以下我們將分別介紹圖文演算法。

2.1 圖搭配演算法

2.1.1 相關工作

服飾類搭配在近些年的學術圈有了比較快速的發展。生成一套搭配,總體上有兩種思路:一是利用傳統影像處理方法,將影像底層切割,利用專家知識構成細粒度的、可解釋的搭配關係;二是基於深度學習方法,利用影像和文字技術做深層抽取和表示,用深層網路去隱式地學習搭配關係。在這些工作中,[1]試圖給一套搭配打分,使用基於深度學習的多模態、多例項作為特徵,質量分作為標籤。[2]用雙向LSTM網路模擬搭配的序列化過程,可以生產搭配、或者給一套搭配打分。[3]雖然不是服務於搭配業務,但它將影像和文字結合起來,利用搭配裡商品風格相近的原則,學習出商品的風格表示。[4]用到了蒸餾網路的方法,將Teacher-Student網路巧妙地嫁接在特徵表示後,使得搭配能夠遵循知識圖譜規約。這些文章在學術上都給予我們很多啟發,但是目前,據我們所知,在電商平臺還沒有一個完全智慧化的搭配平臺,可以線上實時地產出內容並進行投放。線上生產的難點,一是資料量非常龐大,二是對於可投放的質量要求極高。滴搭吸取了前人工作的優點,並在網路核心(DAN)和向量對齊(DSSM)兩方面做出了獨創性的工作。這兩個網路在拿到更好效果的同時,也解決了資料龐大和線上效果保證兩大難題。

滴搭的整體框架是第二種方法。我們選擇深度學習方法作為模型基礎的原因是,深度學習的發展使得網路的高層特徵已經能夠比較詳盡地涵蓋圖片的多種資訊。比如我們對白底圖的CNN高維向量進行K-means聚類,會發現相同形狀和風格的圖片聚在一起。這使得我們有信心可以利用深度學習網路的高層特徵直接進行計算。另一方面,滴搭不是專門為某一行業定製的平臺,專家知識無法跨行業通用,且目前除了幾個大行業之外,很多行業並沒有開源出足夠豐富的知識圖譜。為了滿足線上業務要求,滴搭又融合了專家知識作為約束條件,因此對於結果具有部分解釋性。

2.1.2 準備工作

  • 資料

我們最開始的訓練資料來源於Polyvore網站,該網站下有大量使用者提交的搭配樣例,並且提供其他使用者點贊和評論。在遷入淘內業務後,我們收集了淘內達人產出的幾十萬套優質搭配,對訓練資料進行了重新整理。

  • 特徵表示

首先,我們需要對商品進行表示化。最直接能展現一個商品資訊的來源是其圖片,我們依靠魯班千萬級的白底相簿,對進入商品池的商品抽取特徵。這裡我們用的是CNN技術,具體模型為inception v3。具體做法如下:

  1. 以類目作為label,對pre-trained模型進行fine-tune,抽取倒數第二層的向量表達作為該商品的圖片表徵。
  2. 將第一步的所有圖片的向量表示進行帶類目約束的K-means聚類。考慮到搭配中的類目關係以及不同類目下商品數量分佈的不同,我們針對性地對K-means做了優化,使得聚類結果更加集中且分佈平衡。一個類目下會有多個聚類結果,聚類結果用cluster表示。該步驟後,每個商品都被聚類到其中一個cluster下。
  3. 將第二步得到的cluster作為label,重新用inception v3進行fine-tune,抽取高維向量表達作為最終的圖片特徵。

在CNN的基礎上增加K-means的原因在於,我們希望影像上相似的圖片能在向量表示上有更加接近的距離。而CNN在K-means之後的分類結果也的確比最開始得到了提升,視覺上更加相似。聚類後結果部分展示如下:

圖片描述

此外,由於圖片有時候並不能涵蓋所有資訊,我們加入了side information作為資訊補充。目前加入的side information包括商品的類目和風格。

2.1.3 模型一:基於LSTM的序列化搭配生產

圖片描述
  • 首先,我們將準備工作中通過CNN得到的高維向量,和side information的向量,經過embedding和stacking的變換,作為模型的輸入層。
  • 其次,輸入向量經過一層MLP,分成兩路:一路進入LSTM網路進行序列化學習,一路進入進入DSSM網路進行向量對齊。

    • LSTM網路:我們將搭配的構成看成一個時序過程,每件搭配物品的產生為一個時序步驟。從第一件商品開始,每一件新產生的商品需要和之前的所有商品有相關性。LSTM網路天然的時序關係使之成為可能。LSTM是RNN(Recurrent Neural Network)的一種衍生,它增加了功能門,能更好地捕捉長期依賴。令$S$表示一套搭配,$x_t$是第$t$個商品的CNN特徵表示,則$S={x_1, x_2, … , x_N}$表示一個搭配序列。根據最大似然估計原理,我們期望最大化:

$$
E(S) = frac{1}{N}sum_{t=1}^N log P(x_{t+1}|x_1, x_2, … x_t)
$$

  • DSSM網路:我們希望可搭配的商品在向量空間上具有更接近的距離,於是參考了DSSM網路的方法。我們從線上日誌和優質搭配兩方面獲取正向樣本,即收集日誌裡點選率高的搭配和達人高質量的搭配樣例,拆成pair對,作為DSSM網路的正向樣本;同時將線上點選率低的搭配作為負向樣本。從圖中看出,當一個(或多個)商品組合經過MLP之後,我們先拿到所有商品在進入LSTM之前的向量表示。當LSTM每一步產出商品$X$時,我們將$X$也經過一個MLP變換,和每個進入LSTM之前的其他商品進行距離計算,其他商品的正樣本樣例表示為$Y^+$,負樣本樣例表示為$Y^-$。我們希望正向樣本之間的距離小,負向樣本之間的距離大,因此loss表示為:

$$
Delta = sim_ heta (X, Y^+) – sim_ heta (X, Y^-)
$$

$$
Loss(Delta ; heta) = log (1+exp (- gamma Delta))
$$

其中,sim函式採用的是cosine相似度,$ heta$表示引數,目標是最大化$Delta$。在GPU上,我們用mini-batch SGD來優化$ heta$。

2.1.4 模型二:基於DAN的無序化搭配生產

我們在LSTM模型一的基礎上完成了第一版的投放,效果還是不錯的。在後續的研究中,我們發現了一個更好的模組:DAN,在以上的框架圖中,它僅僅將LSTM模組做了替換,其他部分保持不變。我們看到了更低的loss和更好的輸出結果。

DAN的核心在於,它將搭配看成一個組合模式,而不是序列模式。在日常生活中,我們會給上衣搭配褲子,也會給褲子搭配上衣,因此在訓練LSTM網路的時候,我們其實需要構造兩條不同順序的訓練資料:上衣+褲子,褲子+上衣。而在DAN網路中,上衣和褲子是無序列差別的輸入,它們以組合的形態輸入網路中。

如下圖所示,同一套搭配的訓練資料在經過CNN和side-information embedding之後,輸入到DAN網路。首先經過非線性變化,變化後的向量進入池化層。我們嘗試了sum-pooling和max-pooling,發現sum-pooling有更好的結果。

圖片描述

DAN網路在訓練的過程中,獲得了比LSTM更低的loss。且在訓練資料構造中,不再需要考慮全排列,而只需要組合資料就夠了。訓練資料的減少大大縮減了訓練時間,使得週期性迭代模型成為可能。

2.1.5 基於context graph的預測過程

怎樣稱為一套搭配?運營往往有不同的定義。女裝的運營可能認為,上衣+下衣+鞋是一套完整搭配,裙裝+配飾+包是一套完整搭配,而連衣裙和牛仔褲是一定不能同時出現的。又或者,家居的運營希望,一個臥室的場景裡需要有床、床頭櫃、燈具、壁畫,缺了其中一個都不是一個合格的臥室搭配。實際上線過程中,運營往往還有場景氛圍的需求,對於風格、季節等等有額外的限制。如何將運營的訴求傳遞給搭配演算法,我們設計了context graph來解決這個問題。

context graph是結構化的運營規約,包括類目搭配的約束、風格的約束、季節的約束,等等。在搭配預測階段,所有商品池的商品和它們的side-information經過Embedding、Stacking和全連線之後,存入商品池(item pool)。以DAN網路為例,當一個活動發起請求時,作為觸發的商品經過DAN網路,如果不考慮約束,則我們會將MLP的輸出結果到商品池中去做向量檢索(sim search),獲取下一個商品。如果考慮約束,則根據context graph的規約,先在向量檢索的基礎上做一層過濾,僅讓滿足運營規約的商品作為預測結果的候選集,再在候選集裡挑出TopK。在每產出一個搭配商品之後,演算法重新計算當前滿足的搭配約束情況,推動下一個商品的產生及圈定新的候選集。

我們將context graph打包到模型裡,因此搭配的預測過程是完全實時的。context graph保證了成品率,即每一套產出的搭配都符合運營的輸入條件,降低了人工篩選的成本。

圖片描述

2.2 文字演算法

2.2.1 相關工作

隨著深度網路的發展,文字應用在近兩年有著非常迅速的落地。在機器翻譯、閱讀理解、摘要生成等文字工作中,sequence-to-sequence的框架被廣泛應用,為不同應用目的而設計的attention網路也蓬勃發展。我們將文案生成看成一個摘要生成問題,原始輸入語料可以是商品原始標題、商品其他資訊等等,而文案需要在原始語料中抽取出關鍵資訊,進行總結甚至擴充描述。Pointer-Generator網路(PGN)[6]做到了這一點。它本質上是一個encoder-decoder加attention的混合模型,但通過一個平衡引數,使得模型既可以從原始語料中抽取文字(pointing),也可以生成原始語料中沒有的新詞(generator)。[7]同樣採用了encoder-decode加attention的基本框架,但是通過蒙特卡洛取樣縮小了目標詞庫,提升效果的同時也加快了預測速度。

在我們的場景下,除了從原始語料中生成,運營往往還會增加一些額外需求。比如運營希望文案的描述中有偏向性,突出風格,突出顏色,或者突出利益點,我們稱為搭配tag。因此這部分我們也作為輸入,加入到attention網路中。

2.2.2 準備工作

  • 資料

我們用達人搭配的幾十萬搭配描述作為訓練資料。訓練資料的輸入為商品的標題、搭配tag,訓練資料的輸出為達人撰寫的標題。我們將詞作為基本單位。

2.2.3 CPGN模型

在PGN的基礎上,我們加入了運營輸入資訊,使得文案、商品、運營要求三者之間建立強關聯,因此新方法命名為CPGN,其演算法框架如下:

圖片描述

整個框架由encoder-decoder構成。自底向上看,首先,我們對原始語料($x_1$, $x_2$, …, $x_n$)和運營輸入($z_1$, $z_2$, …, $z_n$)分別做encode,其中原始語料逐詞進入單層、雙向LSTM網路,隱層向量表示為$h_i$;運營輸入可以是連續的一句話,也可以是關鍵詞,若為前者,則仍然用LSTM處理,若為後者,則直接對關鍵詞做embedding,用$r_i$表示。以$i$表示第$i$個輸入,以$t$表示decode的步數,則attention的分佈$a_t$和context向量$h_t^*$,$r_t^*$表示如下:

$$
e_t^{h_i} =eta (s_t, h_i), e_t^{r_i} = eta (s_t, r_i, h_n)
$$

$$
a_t^{h_i} = softmax(e_t^{h_i}), a_t^{r_i} =softmax(e_t^{r_i})
$$

$$
h_t^* = sum_{i=1}^{n} a_t^{h_i} h_i, r_t^* = sum_{i=1}^{m} a_t^{r_i} r_i
$$

其中,$eta$是一個以$ anh$為啟用函式的多層MLP,$s_t$表示第$t$步decoder的狀態。attention分佈可以看作是decode產生過程中,對encode每個源詞的重視概率。$h_t^*$和$r_t^*$是對attention分佈的帶權求和,是當前步下從源語句獲得的資訊的表達。在此基礎上,我們得到下一個詞在整個詞典上的概率分佈:

$$
P_{vocab} = softmax(g([h_t^*, r_t^*, s_t], y_{t-1}))
$$

其中,$g$為兩層全連線。這樣我們就得到了generate部分的概率。如何平衡pointing和generator呢?我們設計一個引數$p_{gen} in [0,1]$,它是一個概率軟開關,和當前decoder的狀態$s_t$、context向量$h_t^*$,$r_t^*$、以及decoder輸入$y_{t-1}$相關。我們既可以在詞典中generate下一個詞,也可以利用attention的權重在輸入中copy下一個詞。假設從$P_{vocab}$中得到詞典中每個詞的預測概率為$P_{vocab}(w)$,則:

$$
p_{gen} = sigma (h_t^*, r_t^*, s_t, y_{t-1})
$$

$$
P(w) = p_{gen} P_{vocab}(w) + (1-p_{gen}) (sum_{i:w_i = w} a_t^{h_i} + sum_{j:w_j = w} a_t^{r_j} )
$$

其中$sigma$是sigmoid函式。現在的$P(w)$不但包括整個詞典,還包括某些在輸入中出現、但不在詞典中的詞,因此緩解了OOV的問題。在訓練階段,假設第$t$個目標詞為$w_t^*$,則loss表示為:

$$
loss_t = -log P(w_t^*)
$$

$$
loss = frac{1}{M} sum_{t=0}^{M} loss_t
$$

最後,我們加入了coverage演算法解決重複詞問題。在每一步decode中,我們對之前步的所有attention分佈求和,記為$c_t$。$c_t$表現了當前為止,原輸入中的詞被attention體現出來的覆蓋程度,它被帶入到$e_i$中進行計算,因此當前步的decoder將被通知並避免重複之前出現過的詞。此外,loss的計算中也引入covloss,它是$a_i$和$c_i$的最小值之和。coverage演算法不僅作用在原始語料$h_i$上,也作用於運營輸入$r_i$上。由於我們的演算法直接投放到線上,在做過演算法的去重之後,我們在工程上最後還加了一層正則匹配,確保萬無一失。

三、滴搭工程平臺

3.1 演算法平臺XTF

為了能讓整個滴搭平臺真正面向運營,我們需要一個穩定、能支援快速迭代和實時計算的機器學習平臺來支撐我們訓練模型以及線上輸出。為此,我們參與了工程團隊的共建工作——基於Porsche blink的分散式Tensorflow訓練及線上打分平臺,我們稱該平臺為XTensorflow,簡稱XTF。在這個平臺上,滴搭涉及到的LSTM模型、CNN模型、CPGN模型、DAN模型天級別地訓練與更新,快速響應訓練資料的變化;線上預測過程中,共建了CNN的實時打分、context graph的實時查詢、DSSM的實時檢索,使得業務的實時響應成為可能。

圖片描述

3.2 智慧排版平臺

演算法生成的搭配最終投放給使用者,圖片的美觀非常重要。這裡面急需解決多商品的排版問題,包括大小比例、順序、頁面留白等等。魯班團隊在合圖工程上有著多年的經驗,我們共建了搭配商品的排版工作,完成了成圖的最後一步。

滴搭佈局演算法支援設計師上傳模板,也可以根據積累的模板進行合圖匹配。

四、滴搭業務例項

滴搭的圖文演算法本身是很底層且通用的,它可以應用於所有擁有多商品邏輯關係的行業,可以投放於所有有場景定義的業務中。我們在日常業務和大促業務中都有過很多次的合作與嘗試,接下來將重點介紹幾個。

4.1 iFashion搭配

iFashion是一個以搭配為主要心智的場景。無論是在內容質量本身,還是視覺呈現,iFashion都很好地承接了圖文演算法的產出。我們週期性地為iFashion的選品產出圖搭配和文字描述,極大地補充了原僅有達人搭配的池子。演算法搭配和達人搭配在瀑布流中混排,個性化地推薦給使用者。演算法搭配參與生產的優勢包括成本低、成品效果好、轉化資料高等等。

圖片描述

4.2 手淘首焦

手淘首焦是一個強運營需求區塊,一張焦點圖背後是一個活動頁,展現內容包括該活動下的商品圖片以及文案。我們的推薦演算法會給使用者千人千面的展現,即在個性化投放中,我們會給每個使用者投放他感興趣活動下的感興趣內容。在圖文演算法產生之前,我們僅僅對活動下的單個商品做了個性化,而且文案還是固定不變的。

我們嘗試了服飾行業的多商品搭配,搭配的組合態使得首焦的圖片展示更加豐富,不再拘泥於單商品的模式。

圖片描述

我們也嘗試了多行業的文案生產。以下圖為例,傳統的做法,運營輸入固定文案,包括主文案:運動健身狂歡購,副文案:大牌精選好貨鉅惠,以及利益點:搶大額券。固定文案千篇一律,很容易被忽視。在我們的模型中,原始語料是商品標題、描述、屬性等等(該例中,是瑜伽磚頭的相關資訊),運營輸入的是文案詞和利益點(該例中,運營輸入了精選好貨、大牌、狂歡購等等關鍵詞)。最後產出的智慧文案,主文案:瑜伽磚頭精選好貨(分別從商品標題和運營輸入中抽詞),副文案:大牌鉅惠滿就減(從運營輸入中抽詞,並衍生出了“滿就減”)。由於我們產出的文案能夠和商品、活動一一對應,因此文案上也是千人千面的,不但描述了使用者感興趣的這個商品,還突出了活動的特點,使得個性化的效率得到了提升。

在首焦的圖文生產上,我們在CTR和UCTR上都拿到了超過兩位數的提升。

圖片描述

4.3 有好貨

有好貨是首頁流量主力頻道,其主打的“好貨”心智深入人心。目前的版本中,由於排版的限制,達人生產的標題有的太長,顯示不全,有的由於截斷,表述不清,非常影響使用者對商品的資訊讀取。我們和有好貨合作,利用文案演算法,對標題進行重新抽取,在限制長度的情況下提取重點資訊,幫助使用者更好地決策。

圖片描述

五、未來工作

我們的演算法工作、工程工作是緊跟著業務發展的,所以很多的想法也是深入瞭解業務之後思考建設起來的。接下來也有一些想要嘗試的方向:

  1. 首先,我們希望建設一個端到端的演算法模型。現在由於影像網路比較重,模型中還是用CNN進行預處理,再到LSTM或者DAN網路中產出的。我們希望以後影像的處理網路能夠融入到整體框架中。
  2. 其次,我們希望能將使用者的資訊融入到網路中,在生成階段就能做到個性化,而不是生成之後再個性化投放。如果能做到這點,就可以配合一些UGC的內容玩法。

歡迎與我們交流

阿里巴巴推薦演算法團隊目前主要負責阿里電商平臺(包括淘寶、天貓、海外版淘寶、Lazada等)的商品及feeds流推薦,其中手機淘寶首圖個性化、猜你喜歡、購買鏈路等場景每天服務數億使用者,涉及流量效率提升、使用者體驗、提高商家及達人蔘與淘寶的積極性,優化商業生態執行機制。

歡迎熱愛演算法,對業務有好奇心,有合作精神的同學一起工作、成長。簡歷可投郵箱:

binqiang.zhao@alibaba-inc.com

pipei.hpp@alibaba-inc.com

參考文獻

[1]Li Y, Cao L, Zhu J, et al. Mining fashion outfit composition using an end-to-end deep learning approach on set data[J]. IEEE Transactions on Multimedia, 2017, 19(8): 1946-1955.
[2]Han X, Wu Z, Jiang Y G, et al. Learning fashion compatibility with bidirectional lstms[C]//Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017: 1078-1086.
[3]Tautkute I, Trzcinski T, Skorupa A, et al. DeepStyle: Multimodal Search Engine for Fashion and Interior Design[J]. arXiv preprint arXiv:1801.03002, 2018.
[4]Song X, Feng F, Han X, et al. Neural Compatibility Modeling with Attentive Knowledge Distillation[J]. arXiv preprint arXiv:1805.00313, 2018.
[5]Gardner A, Kanno J, Duncan C A, et al. Classifying Unordered Feature Sets with Convolutional Deep Averaging Networks[J]. arXiv preprint arXiv:1709.03019, 2017.
[6]See A, Liu P J, Manning C D. Get to the point: Summarization with
pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.
[7]Wu Y, Wu W, Yang D, et al. Neural Response Generati
on with Dynamic Vocabularies[J]. arXiv preprint arXiv:1711.11191, 2017.


相關文章