Python - Kaggle實戰篇1- 為什麼選擇Kaggle

yukai08008發表於2020-12-07

為什麼要選Kaggle?

1 首先是因為錢。

Kaggle經常有各種型別的競賽,贏得比賽本身就會有獎金。沒有錢搞科研是很困難的,也沒什麼動力。參加競賽算是很理想的方法:

  • 1 技術強-> 拿錢
  • 2 拿了錢 -> 增加技術投資
    在這裡插入圖片描述

2 其模式可以稱為一種行業標準

舉個例子,任何一個競賽首先會有一些概要描述,本質上是商業應用的概述。
在這裡插入圖片描述

提供了應用相關聯的規整資料。
在這裡插入圖片描述
提供了一些思路/教程(相當於參加競賽的人的一個小社群)
在這裡插入圖片描述
還有排行榜
在這裡插入圖片描述

當然kaggle本身也提供了jupyter notebook給使用者使用,歸納一下:

  • 1 商業價值:通過發起方做了簡要說明
  • 2 資料:已經準備好了
  • 3 建模環境:準備好了
  • 4 排名及獎勵:也可以直觀的看到。

對於一個資料科學家/演算法工程師/建模工程師最希望的就是把精力聚焦在核心的技術上,當然也希望看到報酬。目前國內對於建模的商業應用還沒有那麼成熟,通常是商業價值和資料準備佔了大部分的時間。背後的原因有很多:包括歷史的沿革、企業管理者的思路、員工的技能等等。總體上來說,行業整體勢頭還不錯,但是在建模和演算法方面還遠遠未到一個成熟或者快速上升的通道。

我相信未來建模/演算法行業也會變成一個成熟的產業,其最終的表現形式可能多樣,但背後的邏輯基本就和Kaggle差不多:讓專業的人把精力聚焦在該聚焦的地方。

3 超模擬試驗場

目前我寫的大部分文章是關於結構(架構)的,我希望能搭建一個可靠、高效而又靈活的個人計算平臺。從工程的角度來說,如果沒有合適的檢驗或測試場景,很難說一種方法是否成功。

參加Kaggle競賽的過程也是把各種技術進行檢驗和糅合的機會,並且其結果幾乎等同於實戰。(換句話說,就算你的系統不做其他用途,總是能夠幫你贏下足夠多的Kaggle競賽,獎金也花不完了。)

4 計劃

4.1 在春節之前:找到目標

收集競賽的資訊(可以包括已經完結的),找到一些比較適合的進行分析。競賽必須和我的研究方向和進度保持一致,這樣效率才更高。

  • 1 找到一些測試案例(競賽)
  • 2 找到自己研究方向可以做出突破的點

4.2 在2021.6之前:驗證方法

完成1~3個案例的實測結果,通過自研的技術框架可以獲取更好的成績。(Kaggle允許競賽之後繼續排名)

4.3 在2022.1之前:贏得一個比賽的獎金(金、銀、銅都可以)

  • 使用新技術框架,獲取比賽的勝利。
  • 將框架固化為可複用服務。

5 Next

  • 梳理競賽的資訊,更新在部落格中。

相關文章