今日面試題分享:請寫出你瞭解的機器學習特徵工程操作,以及它的意義

七月線上實驗室發表於2019-03-20

640?wx_fmt=png

掃描上方二維碼  關注:七月線上實驗室 

後臺回覆:100   免費領取【機器學習面試100題】PDF版一份


今日面試題分享
請寫出你瞭解的機器學習特徵工程操作,以及它的意義


參考答案:


解析:

特徵工程包括資料與特徵處理、特徵選擇和降緯三部分。 


資料與特徵處理包括: 

1.資料選擇、清洗、取樣 

- 資料格式化; 

- 資料清洗,填充缺失值、去掉髒資料,將不可信的樣本丟掉,預設值極多的欄位考慮不用; 

- 取樣:針對正負樣本不平衡的情況,當正樣本遠大於負樣本時,且量都很大時,使用下采樣,量不大時,可採集更多的資料或oversampling或修改損失函式;取樣過程中可利用分層抽樣保持不同類別資料的比例。  


2.不同型別資料的特徵處理 

- 數值型:幅度調整/歸一化、log等變化、統計值(例如max、min、mean、std)、離散化、分桶等 

- 類別型:one-hot編碼等 

- 時間型: 提取出連續值的持續時間和間隔時間;提取出離散值的“年”、“月”、“日”、“一年中哪個星期/季度”、“一週中的星期幾”、“工作日/週末”等資訊 

- 文字型:使用If-idf特徵 

- 統計型:加減平均、分位線、次序、比例  


意義: 

- 對資料進行預處理,可提高資料質量,提高挖掘質量。對資料進行清洗可填充缺失值、光滑噪聲資料,識別和刪除離群點資料,保證資料的一致性; 

- 使用正確的取樣方法可解決因資料不平衡帶來的預測偏差; 

- 對不同的資料型別進行不同的特徵處理有助於提高特徵的可用性,例如對數值型資料進行歸一化可將資料轉化到統一量綱下;對類別型資料,可用one-hot編碼方法將類別資料數字化,數字化特徵之後可更用來計算距離、相似性等;可從時間型資料當中提取中更多的時間特徵,例如年、月和日等,這些特徵對於業務場景以及模型的預測往往有很大的幫助。統計型特徵處理有助於從業務場景中挖掘更豐富的資訊。 


特徵選擇包括:

1.Filter 

使用方差、Pearson相關係數、互資訊等方法過濾特徵,評估單個特徵和結果值之間的相關程度,留下Top相關的特徵部分。  


2.Wrapper 

可利用“遞迴特徵刪除演算法”,把特徵選擇看做一個特徵子集搜尋問題,篩選各種特徵子集,用模型評估效果。  


3.Embedded 

可利用正則化方式選擇特徵,使用帶懲罰項的基模型,除了選擇出特徵外,同時也進行了降緯。 


意義: 

-剔除對結果預測不大的特徵,減小冗餘,選擇有意義的特徵輸入模型,提高計算效能。  


降緯: 

方法:主成分分析法(PCA)和線性判別分析(LDA) 


意義: 通過PCA或LDA方法,將較高緯度樣本空間對映到較低維度的樣本空間,從而達到降緯的目的,減少模型的訓練時間,提高模型的計算效能。


題目來源:七月線上官網(www.julyedu.com)——面試題庫——面試大題——機器學習


640?wx_fmt=png



640?wx_fmt=gif

今日學習推薦

【PyTorch的入門與實戰】

16小時帶你實戰PyTorch 1.0 

四大課程特色  八大實戰專案


640?wx_fmt=jpeg

長按識別下方二維碼

免費試聽

?

640?wx_fmt=png

長按識別二維碼


640?wx_fmt=gif


640?wx_fmt=gif

備戰AI求職季 | 100道機器學習面試題(上)

一文詳解:什麼是B樹?

機器學習中的數學基礎(微積分和概率統計)

一文詳解機器學習中最好用的提升方法:Boosting 與 AdaBoost

34個最優秀好用的Python開源框架

【實戰分享】電影推薦系統專案實戰應用

萬字長文概述NLP中的深度學習技術


諮詢,檢視課程,請點選“閱讀原文

「 在看的,麻煩點一下再走~ 」

相關文章