基於動態混合高斯模型的商品價格模型演算法
1. 背景
作為電子商務網站,淘寶網上的每個商品都有一個價格,該價格從一個很重要的維度上反應出一個商品的品質。但是由於該價格是由第三方賣家自己確定的,因此存在一定的隨機性。一個價格過低的商品,其假貨的可能性往往較大,比如500元的勞力士手錶,或者商品的質量存在問題;同時一個價格過高的商品,可能會失去一個潛在的購買者,也可能會是賣家故意設定高價,以便使用者按價格排序時展現在靠前的位置。
因此對一個商品當前價格的合理性進行判斷,並根據該商品的屬性給出其合理的價格區間,對於規範淘寶網的商品運營以及搜尋結果展現方面都具有重要的作用。
2. 應用場景
本演算法目前主要用於三個場景:
- 在搜尋排序中,對於商品價格合理性極低的商品進行降權;
- 商品假貨識別中,針對超低價商品判斷其是否為假貨;
- 商品品質專案中,根據商品的價格合理性作為商品品質分析的一個維度,從劣質、價效比等方面刻畫一個商品的品質。
3. 技術方案
3.1 概述
本演算法提出三個優化點來判斷一個商品的價格合理性並給出一個合理的價格區間:
- 根據商品的屬性對商品進行同款聚合,以同款商品為單位,對同款中商品的價格合理性進行判斷;
- 使用近30天商品的成交價,同時以天貓、KA賣家等可信商家的商品價格作為訓練資料;
- 基於訓練樣本動態地選擇單高斯模型或雙高斯模型,同時解決奇異值與過擬合問題,以提高準確率。
整體流程圖如下所示:
3.2 詳細流程
3.2.1. 獲得同款資料
第一步是獲取商品的同款資訊,只有基於同款的情況下,才能利用大資料對商品的合理價格進行預測。目前使用到的同款資料主要有以下三個:
- 部分標類商品有spuid節點,spuid相同的商品為同一類
- 當前淘寶網上的找同款的資料
- 影像團隊產出的同款資料
除此之外,我們還有基於商品重點屬性的同款聚合的通用方法,以增加對商品的覆蓋量。該方法通過設定類目下的重點屬性,自動地根據這些屬性對商品進行聚合成同款進行後續的計算。
3.2.2 訓練樣本集獲取
獲取了同款資料之後,需要從裡面找到價格有問題的樣本,首先需要獲取其中可信任的樣本,當前從三個維度獲取可信樣本:
- 以商品成交價作為訓練樣本,因此需要以同款為粒度獲取該同款下過去30天內成交的商品的成交價,同時為了保證成交價的合理性,需要去掉其中識別出來的炒信、作弊等銷量
- 取同款中天貓賣家的商品價格作為訓練樣本
- 取同款中KA賣家的商品價格作為訓練樣本
3.2.3 基於動態高斯模型的商品價格模型
在獲取了同款下商品的訓練樣本之後,使用高斯模型獲得其分佈的均值、方差等資訊。在本方法中對傳統的高斯模型進行了兩處優化:
- 根據樣本分佈情況去除奇異點;
- 根據資料樣本情況動態選擇單高斯或雙高斯模型進行訓練;
具體演算法流程如下圖所示:
本演算法中會首先使用雙高斯模型計算出當前訓練樣本的分佈情況,同時會根據具體的樣本資訊決定使用雙高斯模型還是單高斯模型。
判斷雙高斯是否合適的方法:
判斷是否使用單高斯模型的邏輯有兩個
- 判斷兩個高斯模型的均值是否較為接近,若其比值大於某個閾值,比如均值分別為100與130的情況,則可以使用單高斯模型。同時還要判斷其均值是否過於接近,如果過於接近,則合併為單高斯之後會造成資料過擬合的情況。因此需要對它們的均值之比設定一個上限與下限;
- 同時再設定兩個高斯模型中樣本點的數量之差的限制
去除奇異點方法:
去除奇異點的目的主要是為了解決當前同款資料中本身存在的噪聲問題,讓訓練的樣本更加收斂。主要方法是在雙高斯模型情況下,若其中一個模型中的樣本量過少,而另一個模型中的樣本量很多,那麼樣本量少的可以作為奇異值進行去除。比如在同一款中,大量的價格聚集在100元,只有少量的價格聚集在20元,那麼20元周圍的樣本可以作為奇異值進行去除。具體的閾值等資訊根據情況進行設定。
通過該方法計算出每個同款下商品價格的分佈情況,在預測時,可以直接通過查表的方式找到該同款下每個商品價格的合理性概率值。
4. 效果與後續計劃
4.1 當前識別效果
當前價格模型的資料分別在假貨識別、商品品質、超低價商品降權中得到應用。
- 具體在假貨識別中,應用到了運動鞋類目、手錶類目以及門票等類目下,目前已經通過價格的方式識別到有問題的商品X個,經過評測準確率達到98%。
- 在商品品質模型中,價格模型也應用於找到價效比更好的商品以及同款商品中價格不合理的商品,作為商品品質模型的一個特徵。
4.2 後續計劃
在價格模型後續的工作中,會從以下幾個方面進行開展:
- 對當前價格模型的不斷優化
- 假貨識別中,從當前的幾個類目擴充套件到更多的類目進行嘗試
- 商品品質模型中,更好地利用好價格這一因素,開發出更多的模型,如商品價效比模型等
相關文章
- 基於混合高斯模型的運動目標檢測演算法模型演算法
- 高斯混合模型(GMM)及其EM演算法的理解模型演算法
- 05EM演算法-高斯混合模型-GMM演算法模型
- 高斯混合模型Gaussian Mixture Model (GMM)模型
- 高斯混合模型(GMM)和EM演算法 —— python實現模型演算法Python
- 一文詳解高斯混合模型原理模型
- 智慧定價模型:藉助API實時更新商品價格資訊模型API
- 優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離模型
- 統計學習:EM演算法及其在高斯混合模型(GMM)中的應用演算法模型
- 混合高斯模型實現運動目標檢測(OpenCV內建實現)模型OpenCV
- 商品多規格模型構造示例模型
- 混合模型初探模型
- 模型的威力:基於模型,快速梳理原始碼模型原始碼
- K-Means(K均值)、GMM(高斯混合模型),通俗易懂,先收藏了!模型
- 分類模型的演算法效能評價模型演算法
- 迴歸模型的演算法效能評價模型演算法
- 聚類模型的演算法效能評價聚類模型演算法
- 大模型價格進入“釐”時代,豆包大模型定價每千tokens僅0.8釐大模型
- 演算法金 | 機器學習模型評價、模型與演算法選擇(綜述)演算法機器學習模型
- 基於多模態大模型的人機對話大模型
- QEM 網格模型簡化演算法模型演算法
- 購物車自動計算商品總價格
- 根據商品數量自動計算價格
- Python 基於 selenium 實現不同商城的商品價格差異分析系統Python
- 基於結構化資料的文字生成:非嚴格對齊生成任務及動態輕量的GCN生成模型GC模型
- SAP MM 移動平均價的商品發票價格和採購訂單價格差異的處理
- KMeans演算法與GMM混合高斯聚類演算法聚類
- 動態sbm模型dsbm復現模型
- 五條大模型最新動態大模型
- JavaScript商品價格打折計算器JavaScript
- 詞嵌入系列部落格Part1:基於語言建模的詞嵌入模型模型
- Google釋出pQRNN新NLP模型:基於投影的高效模型架構GoRNN模型架構
- 基於序列模型的隨機取樣模型隨機
- 基於LSTM模型的智慧選股策略模型
- XLM — 基於BERT的跨語言模型模型
- 基於python的事件處理模型Python事件模型
- 基於背景知識的對話模型模型
- 如何基於MindSpore實現萬億級引數模型演算法?模型演算法