想從事資料科學領域,需要多少數學知識?
導讀 |
如果你有心學習資料科學,那麼你一定會在腦海中想過下面的問題:沒有或者只有很少的數學知識,我能做一個資料科學家嗎?資料科學必需的數學工具有哪些?
|
如果你有心學習資料科學,那麼你一定會在腦海中想過下面的問題:
沒有或者只有很少的數學知識,我能做一個資料科學家嗎?
資料科學必需的數學工具有哪些?
有很多優秀的包可用於建立預測模型或者資料視覺化。其中最常用的用於描述和預測分析的一些包有:
- Ggplot2
- Matplotlib
- Seaborn
- Scikit-learn
- Caret
- TensorFlow
- PyTorch
- Keras
多虧了這些包,任何人都可以建立起一個模型或者實現資料視覺化。然而, 堅實的數學基礎對於修改你的模型讓你的模型效能更好更加可靠來說是十分必要的。建立模型是一回事,解釋模型得出可用於資料驅動的決策的有意義的結論又是另一回事。用這些包之前,理解每個包中的數學原理是很重要的。因為這樣你才不是簡單地只是把這些包作為一個黑盒來使用。
假設我們要建立一個多重回歸模型。在此之前,我們需要問一下自己下面的這些問題:
- 我的資料集有多大?
- 我的特徵變數和目標變數是什麼?
- 什麼預測特徵與目標變數關聯性最大?
- 什麼特徵是重要的?
- 我需要量化特徵值嗎?
- 我的資料集應該如何分成訓練集和測試集?
- 什麼是主成分分析(PCA)
- 我應該用PCA移除多餘特徵嗎?
- 我要如何評估我的模型?用R2,MSE還是MAE?
- 我應該如何提升模型預測的能力?
- 我應該使用正則化的迴歸模型嗎?
- 什麼是迴歸係數?
- 什麼是截距?
我應該使用諸如K近鄰迴歸或者支援向量迴歸這種非引數迴歸模型嗎?
我的模型中有哪些超引數,如何對其進行微調以獲得效能最佳的模型?
沒有良好的數學背景,你就無法解決上面提到的問題。 最重要的是,在資料科學和機器學習中,數學技能與程式設計技能同等重要。 因此,作為有志於資料科學的人,你必須花時間研究資料科學和機器學習的理論和數學基礎。 你構建可應用於實際問題的可靠而有效的模型的能力取決於您的數學基礎。
現在我們來聊聊資料科學還有機器學習所必需的一些數學工具。
統計與機率學可用於特徵的視覺化,資料預處理,特徵轉換,資料插入,降維,特徵工程,模型評估等。
這裡是你需要熟悉的概念:均值,中位數,眾數,標準差/方差, 相關係數和協方差矩陣,機率分佈(二項,泊松,正太), p-值, 貝葉斯理論(精確性,召回率,陽性預測值,陰性預測值,混淆矩陣,ROC曲線), 中心極限定理, R_2值, 均方誤差(MSE),A/B測試,蒙特卡洛模擬。
大多數機器學習模型都是由帶有許多特徵或者預測因子的資料集建立的。因此,熟悉多元微積分對於建立機器學習模型及其重要。
這裡是你需要熟悉的概念:多元函式;導數和梯度; 階躍函式,Sigmoid函式, Logit函式, ReLU(整流線性單元)函式;損失函式;函式作圖;函式最大最小值。
線性代數是機器學習中最重要的數學工具。 資料集通常都表示為矩陣。 線性代數常用於資料預處理,資料轉換,降維和模型評估。
這裡是你需要熟悉的概念:向量;向量的範數;矩陣;矩陣轉置;矩陣的逆;矩陣的行列式;矩陣的跡;點積;特徵值;特徵向量
大多數機器學習演算法透過最小化目標函式來建立預測模型,由此學習應用於測試資料的權重以獲得預測的標籤。
這裡是你需要熟悉的概念:損失函式/目標函式;似然函式;誤差函式;梯度下降演算法及其衍生(如隨機梯度下降)
總之,我們已經討論了資料科學和機器學習所需的基本數學和理論技能。 有幾門免費的線上課程可以教你資料科學和機器學習所必需的數學知識。 作為有志於資料科學的人,請記住,資料科學的理論基礎對於構建高效且可靠的模型至關重要。 因此,您應該投入足夠的時間來研究每種機器學習演算法背後的數學理論。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2750821/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資訊科學領域中的知識管理
- [譯] 資料科學領域十大必知機器學習演算法資料科學機器學習演算法
- 學大資料需要掌握的知識,需要學習的資料技術大資料
- 學習大資料需要掌握的知識,需要學習的資料技術大資料
- 資料庫MySQL需要學習基本知識資料庫MySql
- 想入門資料科學領域?明確方向更重要資料科學
- 資料科學領域,你該選 Python 還是 R ?資料科學Python
- 參加Python培訓需要多少錢?都需要學習哪些知識?Python
- 從Java新手到大神需要學哪些知識?Java
- 機器學習和資料科學領域,推薦幾本學習書單機器學習資料科學
- Python---資料科學領域常用的15個Python包Python資料科學
- 如何加速專業領域知識的學習?- Commoncog
- ApacheCN 資料科學/人工智慧/機器學習知識樹 2019.2Apache資料科學人工智慧機器學習
- 使用知識圖解開生命科學資料挑戰圖解
- 做資料科學領域的「召喚師」,組織一場人人可參與的資料科學比賽資料科學
- 動手學深度學習需要這些數學基礎知識深度學習
- Python可以從事資料分析領域的工作嗎?Python
- 零基礎如何學好大資料?必備需要學習知識大資料
- 資料科學領域的幾個無程式碼分析工具介紹資料科學
- 從業資料分析,需要掌握python哪些知識?Python
- 機器學習和資料科學領域必讀的10本免費書籍機器學習資料科學
- 資料科學家最需要什麼技能?資料科學
- 資料科學家需要的基礎技能資料科學
- 從入門到高階,讀懂機器學習需要哪些數學知識(附網盤)機器學習
- 解析 :躋身資料科學領域的五條職業規劃道路資料科學
- 能源和公用事業領域的 10 大資料科學用例 - KDnuggets大資料資料科學
- 在資料科學領域,Python語言和R語言有何區別?資料科學PythonR語言
- 為什麼Python是資料科學領域的首選語言?Python入門學習Python資料科學
- 深度學習領域的資料增強深度學習
- 學Python需要多久?應用領域有哪些?Python
- 怎麼學好Java?需要學習哪些知識?Java
- 資料科學資料科學
- 大資料入門到精通,想入行大資料需要學習這些知識大資料
- 彩票的數學知識
- 學大資料可以從事哪些工作?大資料
- 北鯤雲超算平臺提供生命科學領域所需要的哪些軟體?
- PyCon 2018資料科學talk盤點,入坑PyTorch前你需要知道的事資料科學PyTorch
- 學習大資料要從哪些知識點開始著手?大資料