機器學習特徵工程
2018/3/15更新
結合KAGGLE競賽經驗、演算法面試情況和jasonfreak的總結,個人總結出以下機器學習特徵處理的方法;分享給大家,希望對大家有幫助
特徵使用方案:1、要實現我們目標,需要什麼資料----結合特定業務,具體情況具體分析
2、資料可用性評估:1、獲取難度
2、覆蓋率
3、準確率
特徵獲取方案:1、如何獲取特徵(介面呼叫or自己清洗or/github資源下載等)
2、如何儲存?(/data/csv/txt/array/Dataframe//其他常用分散式)
特徵處理:1、特徵清洗:1.1:通過describe資料描述、matplotlib、snsborn資料視覺化操作,清洗異常樣本
1.2:資料不平衡處理:過取樣、欠取樣、Boostrap、Smote、Msote、代價敏感轉化等技術,進行處理;其中過取樣和欠取樣是在資料層面上,通過取樣技術,來降低資料傾斜率;而Smote方法是通過利用最近鄰生成樣本;但是在生成的過程中,由於最近鄰的不穩定行;可能會引進噪聲樣本進入資料集,因此改進的方法MSmote被提出,通過對產生的樣本進一步做異常處理,降低這種可能性,但是無法保證確定性;代價敏感轉化技術是通過對樣本進行加權,然後做一定處理,使得原始的演算法可以由代價不敏感轉為代價敏感,其實就是實現全域性的代價最優,因此可以在訓練如此,將樣本較少的類設定一個較大權重,如果大家對這方面研究有興趣,可以私信或者留言,我可以推薦大家一些優秀的論文,因為我的課題方向就是這個!
2、單個特徵:2.1:歸一化:去除量綱影響
2.2:離散化:通過hash編碼實現,進行特徵轉換,注意:直接數字編碼會導致演算法在一堆沒有意 義的大小順序中學習!!!!(Spark高階資料分析-P65),建議還是用one-hot 雜湊編碼;如果僅僅是兩個類,用0-1編碼是不會有太大問題的,但是one-hot編碼存在一個問題就是,如果類別過程,生成的稀疏編碼維度將會過大,甚至造成維度災;因此,有資料推薦使用many-to-many 進行hash分類,從而降低維度;但是many-to-many過程,需要進行分析,如果聚類一組特徵,從而實現較好的效果,具體還要再找找資料,歡迎補充,謝謝!
2.3:缺失值處理:如果缺失部分大,可以考慮放棄該條特徵,否則利用平均值、中位數、眾數等進行缺失值
補充
2.4:資料轉換:為了使得資料之間反應出清晰的相關性(解決偏度影響),可以對資料進行log、指數等轉換
3、特徵降維:3.1:PCA:無監督對映過程,通過數學對映;找出特徵方差大的組合,相應的特徵向量能夠概括總 特徵90%以上資訊(具備數學推導,大家有興趣可以看一下)
3.2:LDA:監督對映過程,使得同類點距離越近,類間距離越遠
3.3:隨機森林演算法:通過袋外樣本(Out-Of-Bag),對每棵決策樹進行誤差判斷,之後再利用隨機樹變換某一 維特徵,觀察其誤差的變化,如果誤差變化大,即認為特徵重要
3.4:filter:通過數學上方差、資訊熵等操作,觀察每個維度特徵情況,進行降維;
3.5:特徵衍生:對資料進行一定的加工,生成重要特徵,進行資訊補充
歡迎轉載,註明出處,謝謝!
參考:https://www.cnblogs.com/jasonfreak/p/5448385.html
相關文章
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習之特徵工程機器學習特徵工程
- 機器學習2-特徵工程機器學習特徵工程
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 機器學習-特徵提取機器學習特徵
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- SparkML機器學習之特徵工程(一)特徵提取(TF-IDF、Word2Vec、CountVectorizer)Spark機器學習特徵工程
- 百面機器學習總結--第一章特徵工程機器學習特徵工程
- 機器學習的靜態特徵和動態特徵機器學習特徵
- 美團機器學習實踐第二章-特徵工程總結機器學習特徵工程
- 在大型金融資料集上使用機器學習的特徵工程測試機器學習特徵工程
- python基礎學習之 特徵工程Python特徵工程
- 機器學習之良好特徵的特點機器學習特徵
- 機器學習1-sklearn&字典特徵抽取機器學習特徵
- 機器學習筆記——特徵標準化機器學習筆記特徵
- 機器學習的未來——深度特徵融合機器學習特徵
- 為什麼說自動化特徵工程將改變機器學習的方式特徵工程機器學習
- 回顧·機器學習/深度學習工程實戰機器學習深度學習
- 機器學習框架ML.NET學習筆記【3】文字特徵分析機器學習框架筆記特徵
- 機器學習之 基於xgboost的特徵篩選機器學習特徵
- 機器學習之特徵組合:組合獨熱向量機器學習特徵
- 哪些特徵對我的機器學習模型影響最大?特徵機器學習模型
- 機器學習工程師方向文章清單機器學習工程師
- 【Meetup預告】OpenMLDB+OneFlow:連結特徵工程到模型訓練,加速機器學習模型開發特徵工程模型機器學習
- 人工智慧-機器學習-Python-第三方庫-scikit-learn(用於特徵工程)人工智慧機器學習Python特徵工程
- AI工程師的機遇在哪?機器學習工程師最急缺AI工程師機器學習
- 谷歌機器學習43條規則:機器學習工程的最佳實踐經驗谷歌機器學習
- 機器學習-無監督學習(人臉識別,使用NMF進行特徵提取)機器學習特徵
- 今日面試題分享:請寫出你瞭解的機器學習特徵工程操作,以及它的意義面試題機器學習特徵工程
- 什麼是機器學習的特徵工程?【資料集特徵抽取(字典,文字TF-Idf)、特徵預處理(標準化,歸一化)、特徵降維(低方差,相關係數,PCA)】機器學習特徵工程PCA
- 使用SAP Cloud Platform Leonardo機器學習提取圖片的特徵向量CloudPlatform機器學習特徵
- 【火爐煉AI】機器學習050-提取影像的Star特徵AI機器學習特徵
- 機器學習“特徵編碼”的經驗分享:魚還是熊掌?機器學習特徵
- Feature Tools:可自動構造機器學習特徵的Python庫機器學習特徵Python
- 特徵工程特徵工程
- 【機器學習】機器學習簡介機器學習
- 10年內將不再有機器學習工程師?機器學習工程師