【機器學習PAI實踐十二】機器學習實現雙十一購物清單的自動商品標籤歸類
背景
雙十一購物狂歡節馬上又要到來了,最近各種關於雙十一的爆品購物列表在網上層出不窮。如果是網購老司機,一定清楚通常一件商品會有很多維度的標籤來展示,比如一個鞋子,它的商品描述可能會是這樣的“韓都少女英倫風繫帶馬丁靴女磨砂真皮厚底休閒短靴”。如果是一個包,那麼它的商品描述可能是“天天特價包包2016新款秋冬斜挎包韓版手提包流蘇貝殼包女包單肩包”。
每個產品的描述都包含非常多的維度,可能是時間、產地、款式等等,如何按照特定的維度將數以萬計的產品進行歸類,往往是電商平臺最頭痛的問題。這裡面最大的挑戰是如何獲取每種商品的維度由哪些標籤組成,如果可以通過演算法自動學習出例如 地點相關的標籤有“日本”、“福建”、“韓國”等詞語,那麼可以快速的構建標籤歸類體系,本文將藉助PAI平臺的文字分析功能,實現一版簡單的商品標籤自動歸類系統。
資料說明
資料是在網上直接下載並且整理的一份2016雙十一購物清單,一共2千多個商品描述,每一行代表一款商品的標籤聚合,如下圖:
我們把這份資料匯入PAI進行處理,具體資料上傳方式可以查閱PAI的官方文件:https://help.aliyun.com/product/30347.html
實驗說明
資料上傳完成後,通過拖拽PAI的元件,可以生成如下實驗邏輯圖,每一步的具體功能已經標註:
下面分模組說明下每個部分的具體功能:
1.上傳資料並分詞
將資料上傳,由shopping_data代表底層資料儲存,然後通過分片語件對資料分詞,分詞是NLP的基礎操作,這裡不多介紹。
2.增加序號列
因為上傳的資料只有一個欄位,通過增加序號列為每個資料增加主鍵,方便接下來的計算,處理後資料如下圖:
3.統計詞頻
展示的是每一個商品中出現的各種詞語的個數。
4.生成詞向量
使用的是word2vector這個演算法,這個演算法可以將每個詞按照意義在向量維度展開,這個詞向量有兩層含義。
- 向量距離近的兩個詞他們的真實含義會比較相近,比如在我們的資料中,“新加坡”和“日本”都表示產品的產地,那麼這兩個詞的向量距離會比較近。
- 不同詞之間的距離差值也是有意義的,比如“北京”是“中國”的首都,“巴黎”是“法國”的首都,在訓練量足夠的情況下。|中國|-|北京|=|法國|-|巴黎|
經過word2vector,每個詞被對映到百維空間上,生成結果如下圖展示:
5.詞向量聚類
現在已經產生了詞向量,接下來只需要計算出哪些詞的向量距離比較近,就可以實現按照意義將標籤詞歸類。這裡採用kmeans演算法來自動歸類,聚類結果展示的是每個詞屬於哪個聚類簇:
結果驗證
最後通過SQL元件,在聚類簇中隨意挑選一個類別出來,檢驗下是否將同一類別的標籤進行了自動歸類,這裡選用第10組聚類簇。
看一下第10組的結果:
通過結果中的“日本”、“俄羅斯”、“韓國”、“雲南”、“新疆”、“臺灣”
等詞可以發現系統自動將一些跟地理相關的標籤進行了歸類,但是裡面混入了“男士內褲”、“堅果”等明顯與類別不符合的標籤,這個很有可能是因為訓練樣本數量不足所造成的,如果訓練樣本足夠大,那麼標籤聚類結果會非常準確。
其它
使用工具的地址:https://data.aliyun.com/product/learn
與作者聯絡,關注我的微信公眾號:凡人機器學習
相關文章
- 【機器學習PAI實踐七】文字分析演算法實現新聞自動分類機器學習AI演算法
- 【機器學習PAI實踐十二】機器學習實現男女聲音識別分類(含語音特徵提取資料和程式碼)機器學習AI特徵
- 【機器學習PAI實踐四】如何實現金融風控機器學習AI
- 【機器學習PAI實踐五】機器學習眼中的《人民的名義》機器學習AI
- 【機器學習PAI實踐十一】機器學習PAI為你自動寫歌詞,媽媽再也不用擔心我的freestyle了(提供資料、程式碼機器學習AI
- 《機器學習實踐》程式清單2-2機器學習
- 【機器學習PAI實踐十】深度學習Caffe框架實現影象分類的模型訓練機器學習AI深度學習框架模型
- 【機器學習PAI實踐三】霧霾成因分析機器學習AI
- 【機器學習PAI實踐九】如何通過機器學習實現雲端實時心臟狀況監測機器學習AI
- 【機器學習PAI實踐二】人口普查統計機器學習AI
- 【機器學習PAI實踐十二】機器學習演算法基於信用卡消費記錄做信用評分機器學習AI演算法
- 《機器學習實踐》程式清單3-7 plotTree函式機器學習函式
- 【機器學習PAI實踐六】金融貸款發放預測機器學習AI
- PHP 實現機器學習挖掘使用者的購物習慣PHP機器學習
- 【機器學習PAI實踐一】搭建心臟病預測案例機器學習AI
- 機器學習之分類迴歸樹(python實現CART)機器學習Python
- 【機器學習PAI實踐八】用機器學習演算法評估學生考試成績機器學習AI演算法
- 機器學習PAI全新功效——實時新聞熱點OnlineLearning實踐機器學習AI
- 【機器學習】線性迴歸sklearn實現機器學習
- 機器學習PAI快速入門與業務實戰機器學習AI
- Spark機器學習實戰 (十一) - 文字情感分類專案實戰Spark機器學習
- 機器學習--線性迴歸--梯度下降的實現機器學習梯度
- 機器學習實踐指南機器學習
- 第 9 篇:實現分類、標籤、歸檔日期介面
- 【機器學習】多項式迴歸sklearn實現機器學習
- 【機器學習】線性迴歸python實現機器學習Python
- 機器學習總結 (機器學習實踐筆記)機器學習筆記
- 機器學習(三):理解邏輯迴歸及二分類、多分類程式碼實踐機器學習邏輯迴歸
- ML-機器學習實踐機器學習
- [譯] 機器學習專案清單機器學習
- 【機器學習】多項式迴歸python實現機器學習Python
- 標籤的最佳實踐
- 程式語言類“購物車”清單請查收!
- 機器學習PAI快速入門機器學習AI
- 用Provider實現商品加入購物車的動畫效果IDE動畫
- 基於 KubeVela 的機器學習實踐機器學習
- 機器學習之迴歸指標機器學習指標
- 機器學習之線性迴歸(純python實現)機器學習Python