零基礎入門推薦系統-【排序模型+模型融合】

一棵二叉樹發表於2020-12-06

原文網址 : https://blog.csdn.net/qq_46576562/article/details/110782454

排序模型
通過召回的操作，我們已經進行了問題規模的縮減，對於每個使用者，選擇出了N篇文章作為了候選集，並基於召回的候選集構建了與使用者歷史相關的特徵，以及使用者本身的屬性特徵，文章本省的屬性特徵，以及使用者與文章之間的特徵，下面就是使用機器學習模型來對構造好的特徵進行學習，然後對測試集進行預測，得到測試集中的每個候選集使用者點選的概率，返回點選概率最大的topk個文章，作為最終的結果。

排序階段選擇了三個比較有代表性的排序模型，它們分別是：

LGB的排序模型
LGB的分類模型
深度學習的分類模型DIN
得到了最終的排序模型輸出的結果之後，還選擇了兩種比較經典的模型整合的方法：

輸出結果加權融合
Staking（將模型的輸出結果再使用一個簡單模型進行預測）
導包

import numpy as np
import pandas as pd
import pickle
from tqdm import tqdm
import gc, os
import time
from datetime import datetime
import lightgbm as lgb
from sklearn.preprocessing import MinMaxScaler
import warnings
warnings.filterwarnings('ignore')

data_path = './data_raw/'
save_path = './temp_results/'
offline = False

# 重新讀取資料的時候，發現click_article_id是一個浮點數，所以將其轉換成int型別
trn_user_item_feats_df = pd.read_csv(save_path + 'trn_user_item_feats_df.csv')
trn_user_item_feats_df['click_article_id'] = trn_user_item_feats_df['click_article_id'].astype(int)

if offline:
    val_user_item_feats_df = pd.read_csv(save_path + 'val_user_item_feats_df.csv')
    val_user_item_feats_df['click_article_id'] = val_user_item_feats_df['click_article_id'].astype(int)
else:
    val_user_item_feats_df = None
    
tst_user_item_feats_df = pd.read_csv(save_path + 'tst_user_item_feats_df.csv')
tst_user_item_feats_df['click_article_id'] = tst_user_item_feats_df['click_article_id'].astype(int)

# 做特徵的時候為了方便，給測試集也打上了一個無效的標籤，這裡直接刪掉就行
del tst_user_item_feats_df['label']

返回排序後的結果

def submit(recall_df, topk=5, model_name=None):
    recall_df = recall_df.sort_values(by=['user_id', 'pred_score'])
    recall_df['rank'] = recall_df.groupby(['user_id'])['pred_score'].rank(ascending=False, method='first')
    
    # 判斷是不是每個使用者都有5篇文章及以上
    tmp = recall_df.groupby('user_id').apply(lambda x: x['rank'].max())
    assert tmp.min() >= topk
    
    del recall_df['pred_score']
    submit = recall_df[recall_df['rank'] <= topk].set_index(['user_id', 'rank']).unstack(-1).reset_index()
    
    submit.columns = [int(col) if isinstance(col, int) else col for col in submit.columns.droplevel(0)]
    # 按照提交格式定義列名
    submit = submit.rename(columns={'': 'user_id', 1: 'article_1', 2: 'article_2', 
                                                  3: 'article_3', 4: 'article_4', 5: 'article_5'})
    
    save_name = save_path + model_name + '_' + datetime.today().strftime('%m-%d') + '.csv'
    submit.to_csv(save_name, index=False, header=True)

注意：
1.pandas rank()函式用法：
rank函式返回從小到大排序的下標

（1）預設情況下，rank是通過“為各組分配一個平均排名”的方式破壞平級關係的

In [120]:obj = pd.Series([7,-5,7,4,2,0,4])
In [121]:obj.rank()
Out [121]:
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

（2）根據值在原資料中出現的順序排名

In [122]:obj.rank(method='first')
Out [122]:
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

（3）按降序進行排名

In [123]:obj.rank(ascending=False, method='max')
Out [123]:
0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

（4）若對DataFrame進行排序，則可根據axis指定要進行排序的軸

In [136]: frame=pd.DataFrame({'b':[5,7,-3,2],'a':[0,1,0,1],'c':[-2,5,8,-3]})

In [137]: frame
Out[137]:
   a  b  c
0  0  5 -2
1  1  7  5
2  0 -3  8
3  1  2 -3

In [138]: frame.rank(axis=0)
Out[138]:
     a    b    c
0  1.5  3.0  2.0
1  3.5  4.0  3.0
2  1.5  1.0  4.0
3  3.5  2.0  1.0

In [139]: frame.rank(axis=1)
Out[139]:
     a    b    c
0  2.0  3.0  1.0
1  1.0  3.0  2.0
2  2.0  1.0  3.0
3  2.0  3.0  1.0

以上對rank()函式解說的來自：https://blog.csdn.net/starter_____/article/details/79183595?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160723992119195271668286%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160723992119195271668286&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allsobaiduend~default-3-79183595.nonecase&utm_term=rank&spm=1018.2118.3001.4449

# 排序結果歸一化
def norm_sim(sim_df, weight=0.0):
    # print(sim_df.head())
    min_sim = sim_df.min()
    max_sim = sim_df.max()
    if max_sim == min_sim:
        sim_df = sim_df.apply(lambda sim: 1.0)
    else:
        sim_df = sim_df.apply(lambda sim: 1.0 * (sim - min_sim) / (max_sim - min_sim))

    sim_df = sim_df.apply(lambda sim: sim + weight)  # plus one
    return sim_df

零基礎入門新聞推薦系統（多路召回）
2020-11-30
《推薦系統》-DIN模型
2020-10-22
模型
《推薦系統》-PNN模型
2020-10-21
模型
Datawhale零基礎入門金融風控 Task5 模型融合打卡
2020-09-27
模型
【推薦系統篇】--推薦系統之訓練模型
2018-03-26
模型
零基礎入門金融風控之貸款違約預測—模型融合
2020-09-27
模型
推薦系統召回四模型之全能的FM模型
2019-03-06
模型
推薦系統FM系列文章（三）-- NFM模型
2020-12-19
模型
探索將大語言模型用作推薦系統
2023-05-15
模型
聊聊推薦系統，FM模型效果好在哪裡？
2021-06-17
模型
【小白學推薦1】協同過濾零基礎到入門
2020-08-20
搜狐:新聞推薦系統的CTR預估模型
2019-04-21
模型
推薦系統入門（Top-N recommendation）
2021-09-09
DataWhale打卡Day01--推薦系統入門
2020-10-19
23張圖，帶你入門推薦系統
2020-11-09
搭建推薦系統快速入門，只需五步！
2018-12-24
推薦系統入門之使用協同過濾實現商品推薦
2021-03-11
（讀論文）推薦系統之ctr預估-DeepFM模型解析
2019-07-25
模型
巨經典論文！推薦系統經典模型Wide & Deep
2020-12-09
模型IDE
從零基礎入門Tensorflow2.0 ----九、44.3 keras模型轉換成savedmodel
2020-06-17
Keras模型
推薦系統實踐 0x09 基於圖的模型
2020-12-01
模型
序列推薦模型梳理（Sequential Recommendation）
2020-10-28
模型
Netflix 推薦系統 (Part One)-排序演算法
2018-09-27
排序演算法
『學習資料推薦』價值199RMB的零基礎學Python入門教程
2019-01-15
Python
推薦系統基礎知識（二）
2020-12-06
美團綜合業務推薦系統的質量模型及實踐
2022-06-17
模型
快速入門大模型技術與應用，推薦你從Stable Diffusion開始學起
2024-05-29
大模型
LLM模型融合（一）
2024-10-04
模型
推薦系統特徵構建新進展：極深因子分解機模型 | KDD 2018
2018-08-22
特徵模型
為什麼都推薦零基礎學Java?
2021-08-23
Java
前端入門路線推薦
2020-10-07
前端
Flutter入門資料推薦
2023-02-02
Flutter
萬字長文，詳解推薦系統領域經典模型FM因子分解機
2020-11-13
模型
【推薦系統篇】--推薦系統之測試資料
2018-03-27
Steam互動式推薦模型正式上線
2020-03-19
模型
Task05：模型融合
2020-09-27
模型
模型融合_stacking&blending
2020-12-28
模型
零基礎入門Serverless：Hello World
2021-09-14
Server

零基礎入門推薦系統-【排序模型+模型融合】

相關文章