自學資料科學與機器學習,19個數學和統計學公開課推薦

機器之心發表於2017-01-09

在創造萬物之前,上帝只是在做純理論的數學。後來他想,做點應用數學應該是個有趣的變化。

——數學家 John Edensor Littlewood


數學和統計學是資料科學和機器學習的基礎。就我所知,大多數成功的資料科學家都來自這些領域——電腦科學、應用數學和統計學、經濟學。如果你想掌握資料科學,你就必須要對基本代數和統計學有很好的瞭解。


但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。首先,你必須要搞明白哪些必須學,哪些沒有必要——其中可能包含了線性代數、微積分、概率學、統計學、離散數學、迴歸、優化等許多主題。你需要多麼深入這些主題?自學的話很難單靠自己把這一切都把握好。


如果你正面臨著這樣的難題,不要驚慌,現在我已經把這項艱辛的工作幫你完成了。這份列表推薦了來自 Coursera、edX、Udemy 和 Udacity 的最受歡迎的資料科學數學基礎公開課。這份列表經過了精心的編排,讓你可以結構化地自學資料科學所需的數學概念。


現在就開始學習吧!


什麼樣的課程適合你?


為了幫助你瀏覽這些課程,我將課程分為初級、中級以及高階三類,分別針對不同學習者。在深入學習前,請選擇你的數學專業水平。我新增了修習每個課程之前必須做的功課,以資參考。


學習完預備課程才能更好地理解後續課程,這樣的課程很少。所以,你一定要確定瞭解這些課程主題或者上過這些課。


接著讀,找到適合你的課程!


內容目錄:


  • 初級數學水平/統計學


  • 資料科學數學技巧

  • 描述統計學入門

  • 推論統計學入門

  • 概率和資料入門

  • 無處不在的數學:有限數學應用

  • 概率:基礎概念&離散隨機變數

  • 數學生物統計學訓練營 1

  • 線性代數應用 第一部分

  • 數學思維入門


  • 中級數學水平/統計學


  • 貝葉斯統計學:從概念到資料分析

  • 博弈論 1

  • 博弈論 2 :高階應用

  • 資料科學的高階線性模型 1:最小二乘

  • 資料科學的高階線性模型 2:統計線性模型

  • 線性模型和矩陣代數入門

  • 運動中的數學


  • 高階數學水平/統計學


  • 離散優化

  • 基因組資料科學統計學

  • 大資料應用的生物統計學


初級水平的數學和統計學


1. 資料科學數學技巧(Data Science Maths Skills)


地址:https://www.coursera.org/learn/datasciencemathskills


課程週期:4 周


授課:杜克大學(Coursera)


如果你是個初學者,數學知識十分有限,那麼,這個課程很適合你。課程中,你會了解許多代數概念,比如集合論、不等式、函式、座標幾何、對數以及概率等等。


這個課程會帶你瀏覽數學科學所需的所有基礎數學技能並打下堅實基礎。


課程開始時間為 2017 年 1 月 9 日,授課老師來自杜克大學。


預備知識:基礎數學知識


2. 描述統計學入門(Intro to Descriptive Statistics)


地址:https://www.udacity.com/course/intro-to-descriptive-statistics--ud827


課程週期:8 周


授課:Udacity (Coursera)


對於想要學習統計學的初學者來說,Udacity 的這門課是非常好的入門指南。內容有趣、實用,而且有很多例項。描述統計學首先會讓你熟悉各種統計學和定義。然後教授統計學概念,比如集中趨勢(central tendency)、可變性(variability)、標準正態分佈以及取樣分佈。這門課並不需要你提前掌握一些統計學知識,現開放註冊。


預備知識:無


3. 推論統計學入門(Intro to Inferential Statistics)


地址:https://www.udacity.com/course/intro-to-inferential-statistics--ud201


課程週期:8 周


授課:Udacity(Coursera)


學完描述統計學後,就該學習推論統計學了。本課程仍然延續了實用的授課方式。


課程中,你會學到諸如估算(estimation)、假設檢驗、t 檢驗、卡方檢驗、單向方差分析、雙向方差分析以及相關、迴歸等統計概念。


每個主題後面還配有習題集和小測試。課程結束後,你還能在真實資料組上測試學習情況。課程已開放註冊。


預備知識:完全理解描述統計學(Descriptive Statistics,即上面的第 2 個推薦)


替代課程:《統計學:開啟資料世界之門(Statistics: Unlocking the World of Data)》,一個為期 6 周的匹茲堡大學的課程(edX)。地址:https://www.edx.org/course/statistics-unlocking-world-data-edinburghx-statsx#!


4. 概率和資料入門(Introduction to Probability and Data)


地址:https://www.coursera.org/learn/probability-intro


課程週期:5 周


授課:杜克大學(Coursera)


本課會帶你使用 R 和 RStudio 接觸資料視覺化和數值統計。


首先帶你掌握概率和資料探勘基本概念,開始對課程有個基本瞭解。然後,分別解釋不同主題下的各個概念。最後會使用真實資料集,通過一個資料分析專案測試你的學習情況。


授課人是來自杜克大學的統計學教授,也需要你預先掌握專門的 R 統計學知識。如果希望為了研究數學科學而學習 R,那麼,這門課程不容錯過。課程已開放註冊。


預備知識:基礎統計學和 R 知識。


5. 無處不在的數學:有限數學應用(Math is Everywhere: Applications of Finite Math)


地址:https://www.udemy.com/math-is-everywhere-applications-of-finite-math/


授課週期:1 周


授課:戴維森分校(Udemy)


課如其名,講授無處不在的數學,從憤怒的小鳥到谷歌。以有趣的方式講授應用中的數學概念。


課程中,你會學到如何使用線式方程(equation of lines)來創造計算機字型、圖論如何在憤怒的小鳥中扮演重要角色、線性系統如何為一個運動團隊的表現建模以及谷歌如何使用概率和模擬來保持在搜尋引擎上的領先優勢。


授課人系戴維斯分校的數學教授,開放註冊。


預備知識:要懂線性代數和程式設計。


6. 概率論:基本概念和離散型隨機變數(Probability: Basic Concepts & Discrete Random Variables)


地址:https://www.edx.org/course/probability-basic-concepts-discrete-purduex-416-1x


課程週期:6 周


授課:普渡大學(Purdue University)


本課程是為謀求有關資料科學和資訊科學職業者所設計。其涵蓋了數學概率論的基本要素。


在本課程中,你將學習到概率論、隨機變數、分佈、貝葉斯定理概率質量函式和 CDF、聯合分佈律和期望值等基本概念。


一旦你熟悉了這些基礎知識,就可以研究更加深入的概念,如伯努力和二項式分佈、幾何分佈、負二項式分佈、泊松分佈、超幾何分佈和離散均勻分佈。


在學習本課程之後,你將對日常生活中的概率應用有一個深入瞭解。本課程已開放註冊。

預備知識:基本統計學知識。


7. 數學生物統計學訓練營 1(Mathematical Biostatistics Boot Camp 1)


地址:https://www.coursera.org/learn/biostatistics


課程週期:4 周


授課:約翰霍普金斯大學(Johns Hopkins University)


實際上,「生物統計學」裡面的「生物」是個誤導。本課程全是用於資料分析的概率論和統計學技術基礎。


該課程包含概率、期望、條件概率、分佈、置信區間、bootstrapping、二項式分佈(binomial proportions)和對數分佈(logs)。


線性代數和程式設計的背景知識對本課程很有幫助,但不是強制需要的預備知識。該課程從 2017 年 1 月 16 日開始,由約翰霍普金斯大學的生物統計學教授授課。


該課程進度合理並會對數理統計進行完整的剖析。


預備知識:基本線性代數、微積分和實用程式設計(非強制)。


8. 線性代數的應用(第一部分)(Applications of Linear Algebra Part 1)


地址:https://www.edx.org/course/applications-linear-algebra-part-1-davidsonx-d003x-1


課程週期:5 周


授課:戴維森學院(Davidson College (edX))


這是一門講述線性代數在資料科學中應用的有趣課程。


本課程將首先介紹線性代數的基本知識。然後將向你介紹線性代數的應用,如用於手寫數字識別和球隊排名等線上程式碼。


本課程開放註冊。


預備知識:基本線性代數知識


9、數學思維入門(Introduction to Mathematical Thinking)


地址:https://www.coursera.org/learn/mathematical-thinking#


課程週期:8 周


授課:史丹佛大學(Coursera)


這門來自史丹佛大學的課程會教你掌握分析思維技能。你能學到有趣的開箱即用的思維方式,幫助你在競爭中保持優勢。


在這門課中,你將學會一種語言、量詞分析,數論以及實分析的簡單入門。充分掌握這本課程需要熟悉代數、數系(number system)以及初級集合論的知識。


課程將於 2017 年 1 月 9 日開始,授課老師來自史丹佛大學。目前已開放註冊。


預備知識:基礎代數、數系以及初等集合論。


中等數學與統計學


這個時候,你應該已經知道了一個資料科學家需要知道的所有基礎概念。是時候把你的數學知識提升到下一個級別了。


1. 貝葉斯統計:從概念到資料分析(Bayesian Statistics: From Concept to Data Analysis)


地址:https://www.coursera.org/learn/bayesian-statistics


課程週期:4 周


授課:加州大學(Coursera)


貝葉斯統計師資料科學的一個重要課題。因某些原因,它沒獲得足夠的重視。


在此課程中,第一節講了基礎的概率課題,比如條件概率、概率分佈和貝葉斯定理。然後,你會學習 Frequentist 和貝葉斯方法的統計推斷、選擇最優分佈的方法、離散資料的模型以及連續資料的貝葉斯分析。


上此課程需要之前需要掌握統計概念的知識,課程開始於 2017 年 1 月 16 日。


預備知識:基礎與高階統計學


2. 博弈論 1(Game Theory 1)


地址:https://www.coursera.org/learn/game-theory-1


課程週期:8 周


授課:史丹佛大學和英屬哥倫比亞大學(Coursera)


博弈論是資料科學中一個非常重要的組成部分。本課中,你會學習博弈論的基礎知識及其應用。如果你打算今年掌握強化學習,這門課非常適合你。


課程會讓你對以下內容等有個基本瞭解:表徵博弈和策略、擴充套件形式(電腦科學家稱為博弈樹)、貝葉斯博弈(為諸如拍賣之類的事情建模)、重複和隨機博弈。每個概念都會輔以樣例和應用。授課老師來自史丹佛大學和英屬哥倫比亞大學,已開放註冊。


預備知識:基礎概率和數學思維


3. 博弈論 II:高階應用(Game Theory II: Advanced Applications)


地址:https://www.coursera.org/learn/game-theory-2


課程週期:5 周


授課:史丹佛大學和英屬哥倫比亞大學(Coursera)


在之前的課程上過博弈論基礎之後,該課程是對博弈論高階應用的講解。


在此課程中,你將會學到如何設計代理之間的互動,從而獲取好的社會結果(social outcome)。課程覆蓋的三個主要課題是:社會選擇理論、機制設計和競拍。


該課程開始於 2017 年 1 月 30 日,由來自史丹佛大學與英屬哥倫比亞大學的教授教課。


課程已經開放註冊。


預備知識:博弈論基礎


4. 線性模型導論和矩陣代數(Introduction to Linear Models and Matrix Algebra)


地址:https://www.edx.org/course/introduction-linear-models-matrix-harvardx-ph525-2x-0


課程週期:4 周


授課:哈佛大學(edX)


矩陣代數已在實驗性設計和高維資料分析的各種工具中使用。


為了易於理解,這個課程分成 7 部分以循序漸進的方式進行講授。你將會學到矩陣代數的符號及其運算,資料分析中的矩陣代數應用,線性模型和 QR 分解。


這個課程所用的程式語言是 R 語言。你可以自由選擇課程內容中更迎合你興趣點的部分並進行相應內容的學習。


這個課程是由哈佛大學的生物統計教授講授,且目前只開放給該課註冊學員。


預備知識:線性代數基礎和 R 語言知識


5. 資料科學的高階線性模型 1:最小二乘法(Advanced Linear Models for Data Science 1: Least Squares)


地址:https://www.coursera.org/learn/linear-models


課程週期:6 周


授課:約翰霍普金斯大學(來源:Coursera)


這個課程是高階線性統計學習模型兩部分系列的第一部分內容。那些對迴歸模型已經有了解並且想要在這上面尋求進一步學習的人一定要學習這個課程。


在這個課程裡,你將會學到一個和兩個引數的迴歸分析、線性迴歸分析、一般最小二乘法、最小二乘法的範例、基礎以及殘差。在你開始下一步學習之前,我需要澄清一點,你需要有線性代數基礎、多元微積分基礎、瞭解統計和迴歸模型、熟悉基於論證的數學和 R 語言的操作知識。這個課程將在 2017 年 1 月 23 日開始。


預備知識:線性代數、微積分、統計學以及 R 語言知識


6. 資料科學的高階線性模型 2:統計的線性模型(Advanced Linear Models for Data Science 2: Statistical Linear Models)


地址:https://www.coursera.org/learn/linear-models-2


課程週期:6 周


授課:約翰霍普金斯大學


這個是高階線性統計學習模型課程的第二部分。那些對迴歸模型已經有了解並且想要在這上面尋求進一步學習的人一定要學習這個課程。


在這個課程裡,你將會學到多元正態分佈的統計建模基礎、分佈結果以及殘差選項的基礎內容。在你開始下一步學習之前,我需要澄清一點,你需要有線性代數基礎、多元微積分基礎、瞭解統計和迴歸模型、熟悉基於論證的數學和 R 語言的操作知識。這個課程將在 2017 年 1 月 23 日開始。


預備知識:線性代數、微積分、統計學以及 R 語言知識


7. 體育中的數學(Maths in Sports)


地址:https://www.edx.org/course/math-sports-notredamex-mat150x


課程週期:8 周


授課:聖母(Notre Dam)大學(來源 edX)


我是一個對數學如何被用於觸發運動和日常生活更深入見解非常好奇的人。


我發現了這個課程,這個課程呈現了你最喜愛運動中如何運用數學來分析資料並且預知運動員及其團隊的發展趨勢和未來表現。


在這個課程裡,你將會學到歸納推理是如何被用於數學分析的;概率論怎麼被用於資料評估以及風險和任何事件結果的評估。


所有主要的團隊運動,田徑運動,甚至極限運動如攀巖都包括在課程之中。這個課程是由聖母大學的教授講授,目前只開放給註冊該課程的學員。


預備知識:統計學和線性代數


高階數學和統計學


太棒了,到目前為止,你將可以完全自主學習了。你應該已經掌握了數學與統計上的一些技巧,將會對接下來的繼續學習充滿信心,加油!


1. 離散最優化(Discrete Optimization)


地址:https://www.coursera.org/learn/discrete-optimization


課程週期:8 周


授課:墨爾本大學(來源 Coursera)


所有行業以及公司都會運用最優化。航空公司運用最優化來確保固定的週轉時間;電子商務公司如亞馬遜運用最優化來實現貨物的準時送達。最優化在巨集觀層面上的應用包括成千上萬人的供電部署、新藥的研發路徑制定等等。


這個課程給你提供一個全方位理解離散最優化的機會,並且離散最優化已用於我們日常生活。這個課程首先會帶你學習離散最優化的基礎知識及其不同技巧。你將會學到約束條件(constraint),線性和混合整數的程式設計。這個課程的最後一部分包括了最優化的高階專題。


學習這門課程的先決條件是你需要具備很好的程式設計能力,對基礎演算法的瞭解以及線性代數知識。這門課將在 2017 年 1 月 16 日開始,由墨爾本大學的教授講授。


預備知識:程式設計、演算法和線性代數


2. 基因資料科學的統計(Statistics for Genomic Data Science)


地址:https://www.coursera.org/learn/statistical-genomics


課程週期:4 周


授課:約翰霍普金斯大學


如果你渴望成為下一代資料測序科學家,那麼你必須學習這個課程。


在這個課程裡,你將會學到探索性分析;線性建模;假設測試和多假設追蹤測試;不同型別的資料處理如轉錄組測序(RNA-seq)、全基因組關聯研究(GWAS)、染色質免疫共沉澱測序(ChIP-Seq)以及 DNA 甲基化(DNA Methylation)研究。這個課程是約翰霍普金斯大學基因組資料科學家特別專題的一部分。課程將會從 2017 年 1 月 16 日開始。


預備知識:高階統計和演算法


3. 大資料應用的生物統計(Biostatistics for Big Data Applications)


地址:https://www.edx.org/course/biostatistics-big-data-applications-utmbx-stat101x


課程週期:8 周


授課:德州大學醫學部(來源 edX)


這個課程是對運用生物醫學大資料進行資料分析的介紹。


在這個課程裡,你將會學到生物統計方法的基本元件。不熟悉統計學的人在處理生物醫學的大資料時能遇到不同型別的挑戰。


學習在生物醫學資料型別下基本統計是如何運用的。你將在課程裡學到 R 語言程式設計的基礎知識;如何建立以及解釋資料的圖形摘要;引數化和非引數化的推論統計方法。你將會收穫 R 語言下生物醫學問題的處理經驗。


這個課程開放給註冊該課程的學員。


預備知識:高階統計學和 R 語言知識


總結


希望你覺得這篇文章有用。到目前為止,你已經搞清楚了自學的學習領域。如果你有數學背景,可以學習高階課程。如果沒有,就從初級開始吧,再一步步前進。

相關文章