工程師如何解決穿衣搭配煩惱?

weixin_33958585發表於2018-07-26
11104507-a99cb4b17f36527d

阿里妹導讀:作為一名工程師,每天與程式碼打交道,往往沒有時間注意自己的打扮。試想,如果身邊出現一位有品味的搭配高手,為你量身打造形象,豈不美哉?

如今,阿里工程師們推出了一個滴搭平臺,基於千萬時尚達人的優質搭配,已經學習出了一套比較成熟的演算法,幫你找到最合適的穿搭。不信?下面一起來深入瞭解“滴搭”背後的演算法。

前言

自從去年“鹿班”AI設計師完成了1秒8000張海報的壯舉,團隊的小夥伴們開始思考如何讓海報變得更加美觀豐富。其中一部分同學嘗試用AI產出更加豐富的圖文內容,成為陳列師、內容運營的好幫手,這部分工作,取名“滴搭”。

滴搭,是圖文演算法平臺化運維的一次大膽嘗試和穩定落地。它以深度學習網路為基礎,以開放式的生產平臺為載體,賦能運營、賦能達人,支撐以多商品搭配形式為主的圖文內容生產。從2017年2月開始,滴搭的演算法技術陸續在淘寶、天貓的多個業務上落地,橫跨多個行業,並在大促中承擔使命;輔助數萬名達人生產搭配幾千萬套,覆蓋商品數百萬,服務商家數十萬。

滴搭在三個方面做出了貢獻:

內容化生產:以深度學習網路為基礎,廣泛收集商品資訊、使用者資訊、運營知識作為輸入,協助內容生產,生成質量和達人相當。圖文演算法應用到多個行業的多個業務中。

平臺賦能:演算法和工程結合,運營可在滴搭平臺選品、生成搭配、個性化投放,一站式管理。

效率提升:全站達人日均生產幾千套搭配,演算法小時生產百萬套搭配,生成效率數量級提升。演算法搭配擴充了投放總池子,使得個性化效果得到提升。

下面,我們來詳細地介紹滴搭平臺。

一、滴搭平臺簡介

滴搭是運營前臺、演算法平臺、合圖平臺、個性化投放等等多個平臺和演算法的統一稱謂。

運營在前臺做完選品,經過深度影象處理和搭配演算法,學習出可搭配商品的特徵表示。當一件或多件商品作為觸發請求搭配時,可以從百萬級的商品庫中找出與之可搭配的、符合一定運營規則的其它商品,並根據觸發商品和產出商品的資訊,生成描述性標題。最後經過智慧排版技術,合成符合視覺審美的展現形式。生成好的搭配經過推薦演算法,個性化地投放給使用者。以下為滴搭後臺的部分效果展示:

11104507-ca16cb2a568411f7

滴搭平臺經歷了幾次較大的演算法改版,現在基於淘內的優質搭配已經學習出了一套比較成熟的演算法。除了保證一套搭配中的個體風格、顏色、配飾等等做到貼合,滴搭還吸取了運營、達人的經驗,嚴格按照成套規則進行產出,例如在服飾領域,上衣+下衣是合理的,但是下衣+裙裝是不合理的;在登山場景,帳篷+手電筒+登山服是一個合理的組合,而燒烤架不是必須。

接下來,我們將重點介紹滴搭的演算法。由於我們涉及的行業很廣,圖文演算法的應用業務非常多,為了更好地聚焦於演算法本身,以下介紹若無特別說明,將以服飾行業的搭配業務為例。

二、滴搭演算法

滴搭需要完成搭配圖片生成、搭配描述生成兩部分工作,因此我們分別在圖、文上設計演算法框架。底層的資料是公用的,包括商品圖片、商品標題、運營輸入以及其他side information。在這個資料之上,我們先完成搭配圖片的生成,再對該搭配進行文字描述。

在圖搭配的演算法中,我們用CNN(Convolutional Neural Networks)進行圖片預處理,以DSSM(Deep Semantic Similarity Model)作為基本框架,在此基礎上嘗試了兩種搭配邏輯演算法:第一種是基於LSTM(Long Short Term Memory)的序列化搭配生產,第二種是基於DAN(Deep Aggregated Network)的無序列化搭配生產。在產出圖搭配後,我們將產出結果結合文案輸入語料,輸入文案描述模型CPGN(Context aware Pointer-Generator Networks),產出文字描述。最終的結果裡包含圖文內容,是搭配的整體化描述。

11104507-33042c03a9f7fbfb

以下我們將分別介紹圖文演算法。

2.1 圖搭配演算法

★ 2.1.1 相關工作

服飾類搭配在近些年的學術圈有了比較快速的發展。生成一套搭配,總體上有兩種思路:

利用傳統影象處理方法,將影象底層切割,利用專家知識構成細粒度的、可解釋的搭配關係;

基於深度學習方法,利用影象和文字技術做深層抽取和表示,用深層網路去隱式地學習搭配關係。

在這些工作中,[1]試圖給一套搭配打分,使用基於深度學習的多模態、多例項作為特徵,質量分作為標籤。[2]用雙向LSTM網路模擬搭配的序列化過程,可以生產搭配、或者給一套搭配打分。[3]雖然不是服務於搭配業務,但它將影象和文字結合起來,利用搭配裡商品風格相近的原則,學習出商品的風格表示。[4]用到了蒸餾網路的方法,將Teacher-Student網路巧妙地嫁接在特徵表示後,使得搭配能夠遵循知識圖譜規約。

這些文章在學術上都給予我們很多啟發,但是目前,據我們所知,在電商平臺還沒有一個完全智慧化的搭配平臺,可以線上實時地產出內容並進行投放。線上生產的難點,一是資料量非常龐大,二是對於可投放的質量要求極高。滴搭吸取了前人工作的優點,並在網路核心(DAN)和向量對齊(DSSM)兩方面做出了獨創性的工作。這兩個網路在拿到更好效果的同時,也解決了資料龐大和線上效果保證兩大難題。

滴搭的整體框架是第二種方法。我們選擇深度學習方法作為模型基礎的原因是,深度學習的發展使得網路的高層特徵已經能夠比較詳盡地涵蓋圖片的多種資訊。比如我們對白底圖的CNN高維向量進行K-means聚類,會發現相同形狀和風格的圖片聚在一起。這使得我們有信心可以利用深度學習網路的高層特徵直接進行計算。另一方面,滴搭不是專門為某一行業定製的平臺,專家知識無法跨行業通用,且目前除了幾個大行業之外,很多行業並沒有開源出足夠豐富的知識圖譜。為了滿足線上業務要求,滴搭又融合了專家知識作為約束條件,因此對於結果具有部分解釋性。

★ 2.1.2 準備工作

資料:我們最開始的訓練資料來源於Polyvore網站,該網站下有大量使用者提交的搭配樣例,並且提供其他使用者點贊和評論。在遷入淘內業務後,我們收集了淘內達人產出的幾十萬套優質搭配,對訓練資料進行了重新整理。

特徵表示:首先,我們需要對商品進行表示化。最直接能展現一個商品資訊的來源是其圖片,我們依靠鹿班千萬級的白底相簿,對進入商品池的商品抽取特徵。這裡我們用的是CNN技術,具體模型為inception v3。具體做法如下:

以類目作為label,對pre-trained模型進行fine-tune,抽取倒數第二層的向量表達作為該商品的圖片表徵。

將第一步的所有圖片的向量表示進行帶類目約束的K-means聚類。考慮到搭配中的類目關係以及不同類目下商品數量分佈的不同,我們針對性地對K-means做了優化,使得聚類結果更加集中且分佈平衡。一個類目下會有多個聚類結果,聚類結果用cluster表示。該步驟後,每個商品都被聚類到其中一個cluster下。

將第二步得到的cluster作為label,重新用inception v3進行fine-tune,抽取高維向量表達作為最終的圖片特徵。

在CNN的基礎上增加K-means的原因在於,我們希望影象上相似的圖片能在向量表示上有更加接近的距離。而CNN在K-means之後的分類結果也的確比最開始得到了提升,視覺上更加相似。聚類後結果部分展示如下:

11104507-d9bb6404988ef6f3

此外,由於圖片有時候並不能涵蓋所有資訊,我們加入了side information作為資訊補充。目前加入的side information包括商品的類目和風格。

★ 2.1.3 模型一:基於LSTM的序列化搭配生產

11104507-796c97fc26edb707

首先,我們將準備工作中通過CNN得到的高維向量,和side information的向量,經過embedding和stacking的變換,作為模型的輸入層。

其次,輸入向量經過一層MLP,分成兩路:一路進入LSTM網路進行序列化學習,一路進入進入DSSM網路進行向量對齊。

11104507-f471d0b042e789a3
11104507-ce71ac7cf716ea95

DSSM網路:我們希望可搭配的商品在向量空間上具有更接近的距離,於是參考了DSSM網路的方法。我們從線上日誌和優質搭配兩方面獲取正向樣本,即收集日誌裡點選率高的搭配和達人高質量的搭配樣例,拆成pair對,作為DSSM網路的正向樣本;同時將線上點選率低的搭配作為負向樣本。

11104507-9aff0d9708fd2081
11104507-fb6ee3c75fa34178
11104507-8bc323a4f58dc24c

其中,sim函式採用的是cosine相似度,θ表示引數,目標是最大化Δ。在GPU上,我們用mini-batch SGD來優化θ。

★ 2.1.4 模型二:基於DAN的無序化搭配生產

我們在LSTM模型一的基礎上完成了第一版的投放,效果還是不錯的。在後續的研究中,我們發現了一個更好的模組:DAN,在以上的框架圖中,它僅僅將LSTM模組做了替換,其他部分保持不變。我們看到了更低的loss和更好的輸出結果。

DAN的核心在於,它將搭配看成一個組合模式,而不是序列模式。在日常生活中,我們會給上衣搭配褲子,也會給褲子搭配上衣,因此在訓練LSTM網路的時候,我們其實需要構造兩條不同順序的訓練資料:上衣+褲子,褲子+上衣。而在DAN網路中,上衣和褲子是無序列差別的輸入,它們以組合的形態輸入網路中。

如下圖所示,同一套搭配的訓練資料在經過CNN和side-information embedding之後,輸入到DAN網路。首先經過非線性變化,變化後的向量進入池化層。我們嘗試了sum-pooling和max-pooling,發現sum-pooling有更好的結果。

11104507-0421d1ef39963ddd

DAN網路在訓練的過程中,獲得了比LSTM更低的loss。且在訓練資料構造中,不再需要考慮全排列,而只需要組合資料就夠了。訓練資料的減少大大縮減了訓練時間,使得週期性迭代模型成為可能。

★ 2.1.5 基於context graph的預測過程

怎樣稱為一套搭配?運營往往有不同的定義。女裝的運營可能認為,上衣+下衣+鞋是一套完整搭配,裙裝+配飾+包是一套完整搭配,而連衣裙和牛仔褲是一定不能同時出現的。又或者,家居的運營希望,一個臥室的場景裡需要有床、床頭櫃、燈具、壁畫,缺了其中一個都不是一個合格的臥室搭配。實際上線過程中,運營往往還有場景氛圍的需求,對於風格、季節等等有額外的限制。如何將運營的訴求傳遞給搭配演算法,我們設計了context graph來解決這個問題。

context graph是結構化的運營規約,包括類目搭配的約束、風格的約束、季節的約束,等等。在搭配預測階段,所有商品池的商品和它們的side-information經過Embedding、Stacking和全連線之後,存入商品池(item pool)。以DAN網路為例,當一個活動發起請求時,作為觸發的商品經過DAN網路,如果不考慮約束,則我們會將MLP的輸出結果到商品池中去做向量檢索(sim search),獲取下一個商品。如果考慮約束,則根據context graph的規約,先在向量檢索的基礎上做一層過濾,僅讓滿足運營規約的商品作為預測結果的候選集,再在候選集裡挑出TopK。在每產出一個搭配商品之後,演算法重新計算當前滿足的搭配約束情況,推動下一個商品的產生及圈定新的候選集。

我們將context graph打包到模型裡,因此搭配的預測過程是完全實時的。context graph保證了成品率,即每一套產出的搭配都符合運營的輸入條件,降低了人工篩選的成本。

11104507-a3454a29257c51fc

2.2 文字演算法

★ 2.2.1 相關工作

隨著深度網路的發展,文字應用在近兩年有著非常迅速的落地。在機器翻譯、閱讀理解、摘要生成等文字工作中,sequence-to-sequence的框架被廣泛應用,為不同應用目的而設計的attention網路也蓬勃發展。

我們將文案生成看成一個摘要生成問題,原始輸入語料可以是商品原始標題、商品其他資訊等等,而文案需要在原始語料中抽取出關鍵資訊,進行總結甚至擴充描述。Pointer-Generator網路(PGN)[6]做到了這一點。它本質上是一個encoder-decoder加attention的混合模型,但通過一個平衡引數,使得模型既可以從原始語料中抽取文字(pointing),也可以生成原始語料中沒有的新詞(generator)。[7]同樣採用了encoder-decode加attention的基本框架,但是通過蒙特卡洛取樣縮小了目標詞庫,提升效果的同時也加快了預測速度。

在我們的場景下,除了從原始語料中生成,運營往往還會增加一些額外需求。比如運營希望文案的描述中有偏向性,突出風格,突出顏色,或者突出利益點,我們稱為搭配tag。因此這部分我們也作為輸入,加入到attention網路中。

★ 2.2.2 準備工作

資料:我們用達人搭配的幾十萬搭配描述作為訓練資料。訓練資料的輸入為商品的標題、搭配tag,訓練資料的輸出為達人撰寫的標題。我們將詞作為基本單位。

★ 2.2.3 CPGN模型

在PGN的基礎上,我們加入了運營輸入資訊,使得文案、商品、運營要求三者之間建立強關聯,因此新方法命名為CPGN,其演算法框架如下:

11104507-1e5d264e958443d1
11104507-0cc835f0fe3830b6
11104507-e43f8a234b5eabab
11104507-1319701daa4152be
11104507-58b8686bd457c80d
11104507-e5c7c5b9d2a1f090
11104507-c8513400c1cf2a9b
11104507-bb3969a83ae6a330
11104507-e7e2d478f7a21a5a
11104507-fb276a54d6b32ed4
11104507-e445f4052e364351
11104507-2c875f8292286e3c
11104507-7db729106f0cdb4e
11104507-7e58c883b7387f96
11104507-9563d014a44c3eea

三、滴搭工程平臺

3.1 演算法平臺XTF

為了能讓整個滴搭平臺真正面向運營,我們需要一個穩定、能支援快速迭代和實時計算的機器學習平臺來支撐我們訓練模型以及線上輸出。為此,我們參與了工程團隊的共建工作——基於Porsche blink的分散式Tensorflow訓練及線上打分平臺,我們稱該平臺為XTensorflow,簡稱XTF。在這個平臺上,滴搭涉及到的LSTM模型、CNN模型、CPGN模型、DAN模型天級別地訓練與更新,快速響應訓練資料的變化;線上預測過程中,共建了CNN的實時打分、context graph的實時查詢、DSSM的實時檢索,使得業務的實時響應成為可能。

11104507-59ea5da474b7f222

3.2 智慧排版平臺

演算法生成的搭配最終投放給使用者,圖片的美觀非常重要。這裡面急需解決多商品的排版問題,包括大小比例、順序、頁面留白等等。鹿班團隊在合圖工程上有著多年的經驗,我們共建了搭配商品的排版工作,完成了成圖的最後一步。

滴搭佈局演算法支援設計師上傳模板,也可以根據積累的模板進行合圖匹配。

四、滴搭業務例項

滴搭的圖文演算法本身是很底層且通用的,它可以應用於所有擁有多商品邏輯關係的行業,可以投放於所有有場景定義的業務中。我們在日常業務和大促業務中都有過很多次的合作與嘗試,接下來將重點介紹幾個。

4.1 iFashion搭配

iFashion是一個以搭配為主要心智的場景。無論是在內容質量本身,還是視覺呈現,iFashion都很好地承接了圖文演算法的產出。我們週期性地為iFashion的選品產出圖搭配和文字描述,極大地補充了原僅有達人搭配的池子。演算法搭配和達人搭配在瀑布流中混排,個性化地推薦給使用者。演算法搭配參與生產的優勢包括成本低、成品效果好、轉化資料高等等。

11104507-fc138ebd10694b9c

4.2 手淘首焦

手淘首焦是一個強運營需求區塊,一張焦點圖背後是一個活動頁,展現內容包括該活動下的商品圖片以及文案。我們的推薦演算法會給使用者千人千面的展現,即在個性化投放中,我們會給每個使用者投放他感興趣活動下的感興趣內容。在圖文演算法產生之前,我們僅僅對活動下的單個商品做了個性化,而且文案還是固定不變的。

我們嘗試了服飾行業的多商品搭配,搭配的組合態使得首焦的圖片展示更加豐富,不再拘泥於單商品的模式。

11104507-46b433674d85b733

我們也嘗試了多行業的文案生產。以下圖為例,傳統的做法,運營輸入固定文案,包括主文案:運動健身狂歡購,副文案:大牌精選好貨鉅惠,以及利益點:搶大額券。固定文案千篇一律,很容易被忽視。在我們的模型中,原始語料是商品標題、描述、屬性等等(該例中,是瑜伽磚頭的相關資訊),運營輸入的是文案詞和利益點(該例中,運營輸入了精選好貨、大牌、狂歡購等等關鍵詞)。最後產出的智慧文案,主文案:瑜伽磚頭精選好貨(分別從商品標題和運營輸入中抽詞),副文案:大牌鉅惠滿就減(從運營輸入中抽詞,並衍生出了“滿就減”)。由於我們產出的文案能夠和商品、活動一一對應,因此文案上也是千人千面的,不但描述了使用者感興趣的這個商品,還突出了活動的特點,使得個性化的效率得到了提升。

在首焦的圖文生產上,我們在CTR和UCTR上都拿到了超過兩位數的提升。

11104507-ab21129b70c384e7

4.3 有好貨

有好貨是首頁流量主力頻道,其主打的“好貨”心智深入人心。目前的版本中,由於排版的限制,達人生產的標題有的太長,顯示不全,有的由於截斷,表述不清,非常影響使用者對商品的資訊讀取。我們和有好貨合作,利用文案演算法,對標題進行重新抽取,在限制長度的情況下提取重點資訊,幫助使用者更好地決策。

11104507-389411bf03ecc54f

五、未來工作

我們的演算法工作、工程工作是緊跟著業務發展的,所以很多的想法也是深入瞭解業務之後思考建設起來的。接下來也有一些想要嘗試的方向:

首先,我們希望建設一個端到端的演算法模型。現在由於影象網路比較重,模型中還是用CNN進行預處理,再到LSTM或者DAN網路中產出的。我們希望以後影象的處理網路能夠融入到整體框架中。

其次,我們希望能夠在個性化上做更多的努力,配合產出更多的UGC內容玩法。

歡迎與我們交流

阿里巴巴推薦演算法團隊目前主要負責阿里電商平臺(包括淘寶、天貓、海外版淘寶、Lazada等)的商品及feeds流推薦,其中手機淘寶首圖個性化、猜你喜歡、購買鏈路等場景每天服務數億使用者,涉及流量效率提升、使用者體驗、提高商家及達人蔘與淘寶的積極性,優化商業生態執行機制。

歡迎熱愛演算法,對業務有好奇心,有合作精神的同學一起工作、成長。簡歷可投郵箱:pipei.hpp@alibaba-inc.com

參考文獻:

[1]Li Y, Cao L, Zhu J, et al. Mining fashion outfit composition using an end-to-end deep learning approach on set data[J]. IEEE Transactions on Multimedia, 2017, 19(8): 1946-1955.

[2]Han X, Wu Z, Jiang Y G, et al. Learning fashion compatibility with bidirectional lstms[C]//Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017: 1078-1086.

[3]Tautkute I, Trzcinski T, Skorupa A, et al. DeepStyle: Multimodal Search Engine for Fashion and Interior Design[J]. arXiv preprint arXiv:1801.03002, 2018.

[4]Song X, Feng F, Han X, et al. Neural Compatibility Modeling with Attentive Knowledge Distillation[J]. arXiv preprint arXiv:1805.00313, 2018.

[5]Gardner A, Kanno J, Duncan C A, et al. Classifying Unordered Feature Sets with Convolutional Deep Averaging Networks[J]. arXiv preprint arXiv:1709.03019, 2017.

[6]See A, Liu P J, Manning C D. Get to the point: Summarization with

pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.

[7]Wu Y, Wu W, Yang D, et al. Neural Response Generati

on with Dynamic Vocabularies[J]. arXiv preprint arXiv:1711.11191, 2017.

11104507-5f21b8d24195f823

每天一篇技術文章,

看不過癮?

關注“阿里巴巴機器智慧”微信公眾號

發現更多AI乾貨。

相關文章