今日面試題分享:請寫出你瞭解的機器學習特徵工程操作,以及它的意義
掃描上方二維碼 關注:七月線上實驗室
後臺回覆:100 免費領取【機器學習面試100題】PDF版一份
請寫出你瞭解的機器學習特徵工程操作,以及它的意義
參考答案:
解析:
特徵工程包括資料與特徵處理、特徵選擇和降緯三部分。
資料與特徵處理包括:
1.資料選擇、清洗、取樣
- 資料格式化;
- 資料清洗,填充缺失值、去掉髒資料,將不可信的樣本丟掉,預設值極多的欄位考慮不用;
- 取樣:針對正負樣本不平衡的情況,當正樣本遠大於負樣本時,且量都很大時,使用下采樣,量不大時,可採集更多的資料或oversampling或修改損失函式;取樣過程中可利用分層抽樣保持不同類別資料的比例。
2.不同型別資料的特徵處理
- 數值型:幅度調整/歸一化、log等變化、統計值(例如max、min、mean、std)、離散化、分桶等
- 類別型:one-hot編碼等
- 時間型: 提取出連續值的持續時間和間隔時間;提取出離散值的“年”、“月”、“日”、“一年中哪個星期/季度”、“一週中的星期幾”、“工作日/週末”等資訊
- 文字型:使用If-idf特徵
- 統計型:加減平均、分位線、次序、比例
意義:
- 對資料進行預處理,可提高資料質量,提高挖掘質量。對資料進行清洗可填充缺失值、光滑噪聲資料,識別和刪除離群點資料,保證資料的一致性;
- 使用正確的取樣方法可解決因資料不平衡帶來的預測偏差;
- 對不同的資料型別進行不同的特徵處理有助於提高特徵的可用性,例如對數值型資料進行歸一化可將資料轉化到統一量綱下;對類別型資料,可用one-hot編碼方法將類別資料數字化,數字化特徵之後可更用來計算距離、相似性等;可從時間型資料當中提取中更多的時間特徵,例如年、月和日等,這些特徵對於業務場景以及模型的預測往往有很大的幫助。統計型特徵處理有助於從業務場景中挖掘更豐富的資訊。
特徵選擇包括:
1.Filter
使用方差、Pearson相關係數、互資訊等方法過濾特徵,評估單個特徵和結果值之間的相關程度,留下Top相關的特徵部分。
2.Wrapper
可利用“遞迴特徵刪除演算法”,把特徵選擇看做一個特徵子集搜尋問題,篩選各種特徵子集,用模型評估效果。
3.Embedded
可利用正則化方式選擇特徵,使用帶懲罰項的基模型,除了選擇出特徵外,同時也進行了降緯。
意義:
-剔除對結果預測不大的特徵,減小冗餘,選擇有意義的特徵輸入模型,提高計算效能。
降緯:
方法:主成分分析法(PCA)和線性判別分析(LDA)
意義:
通過PCA或LDA方法,將較高緯度樣本空間對映到較低維度的樣本空間,從而達到降緯的目的,減少模型的訓練時間,提高模型的計算效能。
題目來源:七月線上官網(www.julyedu.com)——面試題庫——面試大題——機器學習
今日學習推薦
【PyTorch的入門與實戰】
16小時帶你實戰PyTorch 1.0
四大課程特色 八大實戰專案
長按識別下方二維碼
免費試聽
?
長按識別二維碼
●一文詳解機器學習中最好用的提升方法:Boosting 與 AdaBoost
點
諮詢,檢視課程,請點選“閱讀原文”
「 在看的,麻煩點一下再走~ 」相關文章
- Ocp證書的價值以及擁有它的意義!
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習特徵工程機器學習特徵工程
- 特徵向量的物理意義特徵
- 今日面試題分享面試題
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 機器學習之特徵工程機器學習特徵工程
- 【42】瞭解typename的雙重意義
- 機器學習 特徵工程之特徵選擇機器學習特徵工程
- 如果你還不瞭解機器學習的簡史,請看這篇文章機器學習
- 機器學習2-特徵工程機器學習特徵工程
- 機器學習之特徵工程(一)機器學習特徵工程
- Mybatis入門 Mybatis存在的意義 解決的問題 基本操作MyBatis
- 你該瞭解的TCP/IP以及HTTPTCPHTTP
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- 今日面試題分享:解決bias和Variance問題的方法是什麼?面試題
- Java高頻面試題:談談你對MySQL索引的瞭解Java面試題MySql索引
- 50個你必須瞭解的Kubernetes面試問題面試
- 關於特徵值和特徵向量的幾何直覺意義特徵
- HTTP/3 來了,你瞭解它麼?HTTP
- 今日面試題分享:如何理解模型的過擬合與欠擬合,以及如何解決?面試題模型
- 面試必問的volatile,你瞭解多少?面試
- Docker 常見手寫面試題分享,給你安排的明明白白!Docker面試題
- 關於機器學習你必須瞭解的十個真相機器學習
- ·請列舉你所瞭解的測試工具
- 面試官:你瞭解Webpack嗎?面試Web
- transformjs汙染了DOM?是你不瞭解它的強大ORMJS
- 面試官:你剛說你喜歡研究新技術,那麼請說說你對 Blazor 的瞭解面試Blazor
- 面試官:說說你對ThreadLocal的瞭解面試thread
- 今日面試題分享:什麼是最大熵面試題熵
- mac技巧|你可能不瞭解的實用操作~Mac
- 快取特徵瞭解快取特徵
- Go 模組存在的意義與解決的問題Go
- 應聘機器學習工程師?這是你需要知道的12個基礎面試問題機器學習工程師面試
- 機器學習“特徵編碼”的經驗分享:魚還是熊掌?機器學習特徵
- Java執行緒安全面試題,你真的瞭解嗎?Java執行緒面試題
- 帶你全面瞭解 Flutter,它好在哪裡?它的坑在哪裡? 應該怎麼學?Flutter