資料科學中特徵工程如何自動化? - Reddit
我目前是一名資料科學家,我發現我的大部分時間都花在了特徵工程上。
我的一般做法是,我建立資料的聚合(透過sql,因為需要處理的資料量很大),如sum,mean,avg,std,median,q25,q75。我需要在幾十個特徵上做這個工作。另外,我在不同的時間視窗上計算這些聚合:前一週,前一個月,前三個月。
最後我得到了數百個特徵,我需要選擇那些有意義的,包含相關資訊的特徵。目前,我在這個巨大的資料集上應用pandas profiling或sweetviz,並試圖透過目測結果來分析它。
我的主要挑戰是,這個過程是高度重複和手動的。我想知道是否有任何工具可以幫助我實現這一過程的自動化,並使某些部分可以重複使用?我喜歡有一個使用者介面,特別是用於視覺化的資料。
我是不是做錯了什麼,或者有什麼工具是我明顯沒有注意到的?
回答:
這取決於你的目標是什麼,但大多數時候,我認為ML'ers不需要太多的特徵工程。
如果你只是想建立一個最好的、最具預測性的模型,那麼密集的特徵工程和選擇過程已經有點過時了。15-20年前,盲目地把所有的特徵扔給一個模型的想法經常被嘲笑--在我2000年中期的第一份工作中,我們會花75%的時間來建立、測試和刪除特徵;今天,我可能會花10-20%的時間在這上面。現在的趨勢是走向更強大的非線性演算法,更好的正則化,以及大量的計算+儲存。一個GBM或DNN可以接受原始輸入,結合它們,找到有用的模式,並忽略其他的。
如果你想從你的模型中學習,你不想自動化特徵;你想給模型提供你知道對你很重要的輸入。
如果你需要一個在推理/評分方面快速而簡單的模型(例如,每秒數百萬次的預測),那麼特徵自動化就真的很有價值。我的方法通常是自動建立一堆特徵(所有的連續特徵、離散特徵的單次編碼、交叉特徵的比率和乘積等),用所有的特徵建立一個具有積極的L1正則化的線性模型,然後用前N%的特徵反覆重建模型,直到效能降到閾值以下。我不知道有什麼工具可以幫你做這個,但我用不到50行的Python在幾個小時內就完成了。
相關文章
- 如何用Python做自動化特徵工程Python特徵工程
- [譯] 使用 Python 進行自動化特徵工程Python特徵工程
- HyperparameterHunter 3.0:一文教你學會自動化特徵工程特徵工程
- 資料分析師與資料科學家有什麼不同? - Reddit資料科學
- 資料科學、資料工程學習路線資料科學
- 資料分析特徵工程方法特徵工程
- 為什麼說自動化特徵工程將改變機器學習的方式特徵工程機器學習
- 用Python Featuretools庫實現自動化特徵工程(附連結)Python特徵工程
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- 量化投資中的特徵工程特徵工程
- Reddit網友談資料分析師和資料科學家的職業區別資料科學
- 羅遠飛:自動特徵工程在推薦系統中的研究特徵工程
- 資料預處理和特徵工程特徵工程
- 【特徵工程】(資料)使用Xgboost篩選特徵重要性特徵工程
- 【資料科學家】如何成為一名資料科學家?資料科學
- 特徵工程:互動特徵與多項式特徵理解特徵工程
- Reddit網友參加資料科學家訓練營被騙經歷資料科學
- 產品資料分析師的頭銜是否可重新命名為“資料科學家”? - Reddit資料科學
- 資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai資料科學TOMLAI
- 特徵工程之資料預處理(下)特徵工程
- 如何高效入門資料科學?資料科學
- 自動化測試如何管理測試資料
- 特徵工程中的「歸一化」有什麼作用特徵工程
- 文科生如何高效學資料科學?資料科學
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 機器學習特徵工程機器學習特徵工程
- 用Dask並行化特徵工程!並行特徵工程
- Flutter iOS 混合工程自動化FlutteriOS
- 資料科學資料科學
- 如何成為資料科學家? - kdnuggets資料科學
- Python資料科學(八)- 資料探索與資料視覺化Python資料科學視覺化
- GoldenGate 自動化初始資料Go
- 什麼是機器學習的特徵工程?【資料集特徵抽取(字典,文字TF-Idf)、特徵預處理(標準化,歸一化)、特徵降維(低方差,相關係數,PCA)】機器學習特徵工程PCA
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- (特徵工程實戰)ML最實用的資料預處理與特徵工程常用函式!特徵工程函式
- 新「AI科學家」?MIT整合多智慧體,實現材料科學研究自動化AIMIT智慧體
- 足球比賽中的資料科學資料科學