想從事資料科學領域,需要多少數學知識?

roc_guo發表於2021-01-18
導讀 如果你有心學習資料科學,那麼你一定會在腦海中想過下面的問題:沒有或者只有很少的數學知識,我能做一個資料科學家嗎?資料科學必需的數學工具有哪些?

想從事資料科學領域,需要多少數學知識?想從事資料科學領域,需要多少數學知識?

引言

如果你有心學習資料科學,那麼你一定會在腦海中想過下面的問題:

沒有或者只有很少的數學知識,我能做一個資料科學家嗎?

資料科學必需的數學工具有哪些?

有很多優秀的包可用於建立預測模型或者資料視覺化。其中最常用的用於描述和預測分析的一些包有:

  • Ggplot2
  • Matplotlib
  • Seaborn
  • Scikit-learn
  • Caret
  • TensorFlow
  • PyTorch
  • Keras

多虧了這些包,任何人都可以建立起一個模型或者實現資料視覺化。然而, 堅實的數學基礎對於修改你的模型讓你的模型效能更好更加可靠來說是十分必要的。建立模型是一回事,解釋模型得出可用於資料驅動的決策的有意義的結論又是另一回事。用這些包之前,理解每個包中的數學原理是很重要的。因為這樣你才不是簡單地只是把這些包作為一個黑盒來使用。

案例學習:建立多重回歸模型

假設我們要建立一個多重回歸模型。在此之前,我們需要問一下自己下面的這些問題:

  1. 我的資料集有多大?
  2. 我的特徵變數和目標變數是什麼?
  3. 什麼預測特徵與目標變數關聯性最大?
  4. 什麼特徵是重要的?
  5. 我需要量化特徵值嗎?
  6. 我的資料集應該如何分成訓練集和測試集?
  7. 什麼是主成分分析(PCA)
  8. 我應該用PCA移除多餘特徵嗎?
  9. 我要如何評估我的模型?用R2,MSE還是MAE?
  10. 我應該如何提升模型預測的能力?
  11. 我應該使用正則化的迴歸模型嗎?
  12. 什麼是迴歸係數?
  13. 什麼是截距?

我應該使用諸如K近鄰迴歸或者支援向量迴歸這種非引數迴歸模型嗎?

我的模型中有哪些超引數,如何對其進行微調以獲得效能最佳的模型?

沒有良好的數學背景,你就無法解決上面提到的問題。 最重要的是,在資料科學和機器學習中,數學技能與程式設計技能同等重要。 因此,作為有志於資料科學的人,你必須花時間研究資料科學和機器學習的理論和數學基礎。 你構建可應用於實際問題的可靠而有效的模型的能力取決於您的數學基礎。

現在我們來聊聊資料科學還有機器學習所必需的一些數學工具。

資料科學與機器學習必需的數學工具
1. 統計與機率

統計與機率學可用於特徵的視覺化,資料預處理,特徵轉換,資料插入,降維,特徵工程,模型評估等。

這裡是你需要熟悉的概念:均值,中位數,眾數,標準差/方差, 相關係數和協方差矩陣,機率分佈(二項,泊松,正太), p-值, 貝葉斯理論(精確性,召回率,陽性預測值,陰性預測值,混淆矩陣,ROC曲線), 中心極限定理, R_2值, 均方誤差(MSE),A/B測試,蒙特卡洛模擬。

2. 多元微積分

大多數機器學習模型都是由帶有許多特徵或者預測因子的資料集建立的。因此,熟悉多元微積分對於建立機器學習模型及其重要。

這裡是你需要熟悉的概念:多元函式;導數和梯度; 階躍函式,Sigmoid函式, Logit函式, ReLU(整流線性單元)函式;損失函式;函式作圖;函式最大最小值。

3. 線性代數

線性代數是機器學習中最重要的數學工具。 資料集通常都表示為矩陣。 線性代數常用於資料預處理,資料轉換,降維和模型評估。

這裡是你需要熟悉的概念:向量;向量的範數;矩陣;矩陣轉置;矩陣的逆;矩陣的行列式;矩陣的跡;點積;特徵值;特徵向量

4. 最佳化方法

大多數機器學習演算法透過最小化目標函式來建立預測模型,由此學習應用於測試資料的權重以獲得預測的標籤。

這裡是你需要熟悉的概念:損失函式/目標函式;似然函式;誤差函式;梯度下降演算法及其衍生(如隨機梯度下降)

總結與結論

總之,我們已經討論了資料科學和機器學習所需的基本數學和理論技能。 有幾門免費的線上課程可以教你資料科學和機器學習所必需的數學知識。 作為有志於資料科學的人,請記住,資料科學的理論基礎對於構建高效且可靠的模型至關重要。 因此,您應該投入足夠的時間來研究每種機器學習演算法背後的數學理論。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2750821/,如需轉載,請註明出處,否則將追究法律責任。

相關文章