基於動態混合高斯模型的商品價格模型演算法

juntan發表於2016-01-25

1. 背景

    作為電子商務網站,淘寶網上的每個商品都有一個價格,該價格從一個很重要的維度上反應出一個商品的品質。但是由於該價格是由第三方賣家自己確定的,因此存在一定的隨機性。一個價格過低的商品,其假貨的可能性往往較大,比如500元的勞力士手錶,或者商品的質量存在問題;同時一個價格過高的商品,可能會失去一個潛在的購買者,也可能會是賣家故意設定高價,以便使用者按價格排序時展現在靠前的位置。
    因此對一個商品當前價格的合理性進行判斷,並根據該商品的屬性給出其合理的價格區間,對於規範淘寶網的商品運營以及搜尋結果展現方面都具有重要的作用。

2. 應用場景

    本演算法目前主要用於三個場景:

  1. 在搜尋排序中,對於商品價格合理性極低的商品進行降權;
  2. 商品假貨識別中,針對超低價商品判斷其是否為假貨;
  3. 商品品質專案中,根據商品的價格合理性作為商品品質分析的一個維度,從劣質、價效比等方面刻畫一個商品的品質。

3. 技術方案

3.1 概述

    本演算法提出三個優化點來判斷一個商品的價格合理性並給出一個合理的價格區間:

  1. 根據商品的屬性對商品進行同款聚合,以同款商品為單位,對同款中商品的價格合理性進行判斷;
  2. 使用近30天商品的成交價,同時以天貓、KA賣家等可信商家的商品價格作為訓練資料;
  3. 基於訓練樣本動態地選擇單高斯模型或雙高斯模型,同時解決奇異值與過擬合問題,以提高準確率。

    整體流程圖如下所示:
價格模型整體流程

3.2 詳細流程

3.2.1. 獲得同款資料

    第一步是獲取商品的同款資訊,只有基於同款的情況下,才能利用大資料對商品的合理價格進行預測。目前使用到的同款資料主要有以下三個:

  1. 部分標類商品有spuid節點,spuid相同的商品為同一類
  2. 當前淘寶網上的找同款的資料
  3. 影像團隊產出的同款資料

    除此之外,我們還有基於商品重點屬性的同款聚合的通用方法,以增加對商品的覆蓋量。該方法通過設定類目下的重點屬性,自動地根據這些屬性對商品進行聚合成同款進行後續的計算。

3.2.2 訓練樣本集獲取

    獲取了同款資料之後,需要從裡面找到價格有問題的樣本,首先需要獲取其中可信任的樣本,當前從三個維度獲取可信樣本:

  1. 以商品成交價作為訓練樣本,因此需要以同款為粒度獲取該同款下過去30天內成交的商品的成交價,同時為了保證成交價的合理性,需要去掉其中識別出來的炒信、作弊等銷量
  2. 取同款中天貓賣家的商品價格作為訓練樣本
  3. 取同款中KA賣家的商品價格作為訓練樣本

3.2.3 基於動態高斯模型的商品價格模型

    在獲取了同款下商品的訓練樣本之後,使用高斯模型獲得其分佈的均值、方差等資訊。在本方法中對傳統的高斯模型進行了兩處優化:

  1. 根據樣本分佈情況去除奇異點;
  2. 根據資料樣本情況動態選擇單高斯或雙高斯模型進行訓練;

    具體演算法流程如下圖所示:
動態高斯模型演算法流程圖
    本演算法中會首先使用雙高斯模型計算出當前訓練樣本的分佈情況,同時會根據具體的樣本資訊決定使用雙高斯模型還是單高斯模型。
    判斷雙高斯是否合適的方法:
    判斷是否使用單高斯模型的邏輯有兩個

  1. 判斷兩個高斯模型的均值是否較為接近,若其比值大於某個閾值,比如均值分別為100與130的情況,則可以使用單高斯模型。同時還要判斷其均值是否過於接近,如果過於接近,則合併為單高斯之後會造成資料過擬合的情況。因此需要對它們的均值之比設定一個上限與下限;
  2. 同時再設定兩個高斯模型中樣本點的數量之差的限制

    去除奇異點方法:
    去除奇異點的目的主要是為了解決當前同款資料中本身存在的噪聲問題,讓訓練的樣本更加收斂。主要方法是在雙高斯模型情況下,若其中一個模型中的樣本量過少,而另一個模型中的樣本量很多,那麼樣本量少的可以作為奇異值進行去除。比如在同一款中,大量的價格聚集在100元,只有少量的價格聚集在20元,那麼20元周圍的樣本可以作為奇異值進行去除。具體的閾值等資訊根據情況進行設定。
 
    通過該方法計算出每個同款下商品價格的分佈情況,在預測時,可以直接通過查表的方式找到該同款下每個商品價格的合理性概率值。

4. 效果與後續計劃

4.1 當前識別效果

    當前價格模型的資料分別在假貨識別、商品品質、超低價商品降權中得到應用。

  1. 具體在假貨識別中,應用到了運動鞋類目、手錶類目以及門票等類目下,目前已經通過價格的方式識別到有問題的商品X個,經過評測準確率達到98%。
  2. 在商品品質模型中,價格模型也應用於找到價效比更好的商品以及同款商品中價格不合理的商品,作為商品品質模型的一個特徵。

4.2 後續計劃

    在價格模型後續的工作中,會從以下幾個方面進行開展:

  1. 對當前價格模型的不斷優化
  2. 假貨識別中,從當前的幾個類目擴充套件到更多的類目進行嘗試
  3. 商品品質模型中,更好地利用好價格這一因素,開發出更多的模型,如商品價效比模型等
該文章來自於阿里巴巴技術協會(ATA


相關文章