今日面試題分享:請寫出你瞭解的機器學習特徵工程操作,以及它的意義
掃描上方二維碼 關注:七月線上實驗室
後臺回覆:100 免費領取【機器學習面試100題】PDF版一份
請寫出你瞭解的機器學習特徵工程操作,以及它的意義
參考答案:
解析:
特徵工程包括資料與特徵處理、特徵選擇和降緯三部分。
資料與特徵處理包括:
1.資料選擇、清洗、取樣
- 資料格式化;
- 資料清洗,填充缺失值、去掉髒資料,將不可信的樣本丟掉,預設值極多的欄位考慮不用;
- 取樣:針對正負樣本不平衡的情況,當正樣本遠大於負樣本時,且量都很大時,使用下采樣,量不大時,可採集更多的資料或oversampling或修改損失函式;取樣過程中可利用分層抽樣保持不同類別資料的比例。
2.不同型別資料的特徵處理
- 數值型:幅度調整/歸一化、log等變化、統計值(例如max、min、mean、std)、離散化、分桶等
- 類別型:one-hot編碼等
- 時間型: 提取出連續值的持續時間和間隔時間;提取出離散值的“年”、“月”、“日”、“一年中哪個星期/季度”、“一週中的星期幾”、“工作日/週末”等資訊
- 文字型:使用If-idf特徵
- 統計型:加減平均、分位線、次序、比例
意義:
- 對資料進行預處理,可提高資料質量,提高挖掘質量。對資料進行清洗可填充缺失值、光滑噪聲資料,識別和刪除離群點資料,保證資料的一致性;
- 使用正確的取樣方法可解決因資料不平衡帶來的預測偏差;
- 對不同的資料型別進行不同的特徵處理有助於提高特徵的可用性,例如對數值型資料進行歸一化可將資料轉化到統一量綱下;對類別型資料,可用one-hot編碼方法將類別資料數字化,數字化特徵之後可更用來計算距離、相似性等;可從時間型資料當中提取中更多的時間特徵,例如年、月和日等,這些特徵對於業務場景以及模型的預測往往有很大的幫助。統計型特徵處理有助於從業務場景中挖掘更豐富的資訊。
特徵選擇包括:
1.Filter
使用方差、Pearson相關係數、互資訊等方法過濾特徵,評估單個特徵和結果值之間的相關程度,留下Top相關的特徵部分。
2.Wrapper
可利用“遞迴特徵刪除演算法”,把特徵選擇看做一個特徵子集搜尋問題,篩選各種特徵子集,用模型評估效果。
3.Embedded
可利用正則化方式選擇特徵,使用帶懲罰項的基模型,除了選擇出特徵外,同時也進行了降緯。
意義:
-剔除對結果預測不大的特徵,減小冗餘,選擇有意義的特徵輸入模型,提高計算效能。
降緯:
方法:主成分分析法(PCA)和線性判別分析(LDA)
意義:
通過PCA或LDA方法,將較高緯度樣本空間對映到較低維度的樣本空間,從而達到降緯的目的,減少模型的訓練時間,提高模型的計算效能。
題目來源:七月線上官網(www.julyedu.com)——面試題庫——面試大題——機器學習
今日學習推薦
【PyTorch的入門與實戰】
16小時帶你實戰PyTorch 1.0
四大課程特色 八大實戰專案
長按識別下方二維碼
免費試聽
?
長按識別二維碼
●一文詳解機器學習中最好用的提升方法:Boosting 與 AdaBoost
點
諮詢,檢視課程,請點選“閱讀原文”
「 在看的,麻煩點一下再走~ 」相關文章
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習特徵工程機器學習特徵工程
- 機器學習之特徵工程機器學習特徵工程
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 機器學習2-特徵工程機器學習特徵工程
- 今日面試題分享面試題
- 在大型金融資料集上使用機器學習的特徵工程測試機器學習特徵工程
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- 今日面試題分享:解決bias和Variance問題的方法是什麼?面試題
- 關於機器學習你必須瞭解的十個真相機器學習
- 深入瞭解機器學習機器學習
- 機器學習的靜態特徵和動態特徵機器學習特徵
- 機器學習“特徵編碼”的經驗分享:魚還是熊掌?機器學習特徵
- 深入瞭解Azure 機器學習的工作原理機器學習
- ·請列舉你所瞭解的測試工具
- 機器學習-特徵提取機器學習特徵
- 一、你瞭解機器學習技術體系嗎機器學習
- 今日面試題分享:如何理解模型的過擬合與欠擬合,以及如何解決?面試題模型
- 學 習 數 學 的 意 義
- 如何準備機器學習工程師的面試?機器學習工程師面試
- 學習Lua的意義
- 機器學習之良好特徵的特點機器學習特徵
- 機器學習的未來——深度特徵融合機器學習特徵
- 10個例子帶你瞭解機器學習中的線性代數機器學習
- 機器學習 | 資料歸一化的重要性你瞭解多少?機器學習
- 今日面試題分享:什麼是最大熵面試題熵
- XGBoost學習(六):輸出特徵重要性以及篩選特徵特徵
- 為什麼說自動化特徵工程將改變機器學習的方式特徵工程機器學習
- 應聘機器學習工程師?這是你需要知道的12個基礎面試問題機器學習工程師面試
- 機器學習建模會威脅人工建模嗎?它仍在努力從語言中提取意義機器學習
- Mybatis入門 Mybatis存在的意義 解決的問題 基本操作MyBatis
- SparkML機器學習之特徵工程(一)特徵提取(TF-IDF、Word2Vec、CountVectorizer)Spark機器學習特徵工程
- 小白如何學習網路安全技術,一文帶你瞭解它得到它!
- 百面機器學習總結--第一章特徵工程機器學習特徵工程
- 【演算法工程師】機器學習面試問題總結演算法工程師機器學習面試
- 機器學習之 基於xgboost的特徵篩選機器學習特徵
- 今日面試題分享:請問(決策樹、Random Forest、Booting、Adaboot)GBDT和XGBoost的區別是什麼?...面試題randomRESTboot