《資料科學入門(第2版)》資源連結清單

王苗發表於2020-12-25

《資料科學入門(第2版)》資源連結清單

為方便讀者查詢,本文彙總了《資料科學入門(第2版)》一書中用到的部分網路資源連結。連結內容可能隨時間變化,請讀者知悉。

第2版前言

使用程式碼示例

  • GitHub網站joelgrus/data-science-from-scratch頁面(https://github.com/joelgrus/data-science-from-scratch)

第2章 Python速成

2.28 進一步探索

  • Python教程(https://docs.python.org/3/tutorial/)
  • 官方IPython教程(https://ipython.readthedocs.io/en/stable/interactive/index.html)
  • mypy文件(https://mypy.readthedocs.io/en/stable/)

第3章 資料視覺化 3.1 matplotlib

  • matplotlib庫(https://matplotlib.org/)

3.5 延伸學習

  • matplotlib Gallery(https://matplotlib.org/gallery.html)
  • seaborn(https://seaborn.pydata.org/)
  • Altair(https://altair-viz.github.io/gallery/choropleth.html)
  • Bokeh(https://docs.bokeh.org/en/latest/)

第4章 線性代數

4.3 延伸學習

  • Jim Hefferon(聖邁克爾學院)寫的書Linear Algebra(http://joshua.smcvt.edu/linearalgebra/)
  • David Cherney、Tom Denton、Rohit Thomas和 Andrew Waldron(加州大學戴維斯分校)合著的書Linear Algebra(https://www.math.ucdavis.edu/~linear/linear-guest.pdf)
  • Sergei Treil(布朗大學)的Linear Algebra Done Wrong(https://www.math.brown.edu/streil/papers/LADW/LADW_2017-09-04.pdf)

第5章 統計學

5.6 延伸學習

  • SciPy(https://www.scipy.org/)
  • pandas(https://pandas.pydata.org/)
  • StatsModels(https://www.statsmodels.org/stable/index.html)
  • Douglas Shafer和Zhiyi Zhang(Saylor Foundation)的Introductory Statistics(https://open.umn.edu/opentextbooks/textbooks/introductory-statistics)
  • David Lane(萊斯大學)的OnlineStatBook(http://onlinestatbook.com/)
  • OpenStax(OpenStax College)的Introductory Statistics(https://openstax.org/details/introductory-statistics)

第6章 概率

6.8 延伸學習

  • scipy.stats(https://docs.scipy.org/doc/scipy/reference/stats.html)
  • Charles M. Grinstead和J. Laurie Snell(American Mathematical Society)撰寫的Introduction to Probability(http://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/book.html)

第7章 假設和推論

7.8 延伸學習

  • Coursera提供的資料分析和統計推斷課程(https://www.coursera.org/specializations/statistics)

第8章 梯度下降

8.7 延伸學習

  • Matthew Boelkins、David Austin和Steven Schlicker的Active Calculus 1.0(https://scholarworks.gvsu.edu/books/10/)

第9章 獲取資料

9.5 例項:使用Twitter API

  • Twitter的Developer網站(https://developer.twitter.com/)

9.6 延伸學習

  • Scrapy(https://scrapy.org/)
  • Kaggle(https://www.kaggle.com/datasets)

第10章 資料工作

10.9 延伸學習

  • scikit-learn的多種矩陣分解函式(https://scikit-learn.org/stable/modules/classes.html#module-sklearn.decomposition)

第11章 機器學習

11.7 延伸學習

  • Coursera機器學習課(https://www.coursera.org/learn/machine-learning)
  • Jerome H. Friedman、Robert Tibshirani 和Trevor Hastie(Springer)寫的The Elements of Statistical Learning(https://web.stanford.edu/~hastie/ElemStatLearn//)

第12章 k最近鄰法

12.2 例項:鳶尾花資料集

  • UCI Machine Learning Repository網站的Iris Data Set頁面(https://archive.ics.uci.edu/ml/datasets/iris)

12.4 進一步探索

  • scikit-learn上的最近鄰模型(https://scikit-learn.org/stable/modules/neighbors.html)

第13章 樸素貝葉斯演算法

13.5 使用模型

  • Porter stemmer(https://tartarus.org/martin/PorterStemmer/)

13.6 延伸學習

  • Paul Graham 撰寫的文章“A Plan for Spam”(http://www.paulgraham.com/spam.html)和“Better Bayesian Filtering”(http://www.paulgraham.com/better.html)

第15章 多元迴歸

15.9 延伸學習

  • scikit-learn的linear_model模組(https://scikit-learn.org/stable/modules/linear_model.html)
  • Python模組是statsmodels(https://www.statsmodels.org/stable/index.html)

第16章 邏輯迴歸

16.6 延伸學習

  • scikit-learn提供的邏輯迴歸模組(https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)
  • scikit-learn提供的支援向量機的模組(https://scikit-learn.org/stable/modules/svm.html)
  • LIBSVM(https://www.csie.ntu.edu.tw/~cjlin/libsvm/)

第17章 決策樹

17.7 延伸學習

  • scikit-learn的決策樹模型(https://scikit-learn.org/stable/modules/tree.html)
  • scikit-learn的ensemble模組(https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble)
  • XGBoost(https://xgboost.ai/)

第18章 神經網路

18.5 延伸學習

  • 作者的部落格文章“Fizz Buzz in Tensorflow”(https://joelgrus.com/2016/05/23/fizz-buzz-in-tensorflow/)

第19章 深度學習

19.11 例項:MNIST

  • MNIST(http://yann.lecun.com/exdb/mnist/)

19.13 延伸學習

  • Ian Goodfellow、Yoshua Bengio和Aaron Courville所著的經典教材Deep Learning(https://www.deeplearningbook.org/)
  • PyTorch(https://pytorch.org/)

第20章 聚類分析

20.5 例項:色彩聚類

  • 畫素的顏色(https://en.wikipedia.org/wiki/RGB_color_model)

20.7 延伸學習

  • scikit-learn的模組sklearn.cluster(https://scikit-learn.org/stable/modules/clustering.html)
  • SciPy(https://www.scipy.org/)

第21章 自然語言處理

21.2 n-gram語言模型

  • Mike Loukides的文章“What is data science?”(https://www.oreilly.com/radar/what-is-data-science/)

21.9 延伸學習

  • NLTK(http://www.nltk.org/)
  • Steven Bird、Ewan Klein和Edward Loper的書Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit(http://www.nltk.org/book/) gensim(https://radimrehurek.com/gensim/)
  • Andrej Karpathy的博文“The Unreasonable Effectiveness of Recurrent Neural Networks”(http://karpathy.github.io/2015/05/21/rnn-effectiveness/)
  • AllenNLP(https://allennlp.org/)

第22章 網路分析

22.4 延伸學習

  • 中心性指標(https://en.wikipedia.org/wiki/Centrality)
  • NetworkX(https://networkx.org/)
  • Gephi(https://gephi.org/)

第23章 推薦系統

23.5 矩陣分解

  • MovieLens 100k資料集(http://files.grouplens.org/datasets/movielens/ml-100k.zip)

23.6 延伸學習

  • Python庫Surprise(http://surpriselib.com/)
  • Netflix Prize(https://www.netflixprize.com/)

第24章 資料庫與SQL

24.12 延伸學習

  • SQLite(https://www.sqlite.org/index.html)
  • MySQL(https://www.mysql.com/)
  • PostgreSQL(https://www.postgresql.org/)
  • MongoDB(https://www.mongodb.com/2)
  • 維基百科上關於NoSQL的文章(https://en.wikipedia.org/wiki/NoSQL)

第25章 MapReduce

25.7 延伸學習

  • Hadoop(http://hadoop.apache.org/)
  • Spark(http://spark.apache.org/)

第27章 資料科學前瞻

27.1 IPython

  • IPython(http://ipython.org/)

27.3.1 NumPy

  • NumPy(https://numpy.org/)

27.3.3 scikit-learn

  • scikit-learn的文件中包含的許多案例(https://scikit-learn.org/stable/auto_examples/)

27.3.4 視覺化

  • matplotlib網站上的例子(https://matplotlib.org/examples/)
  • matplotlib網站上的相簿(https://matplotlib.org/gallery.html)
  • seaborn(https://seaborn.pydata.org/)
  • Bokeh(https://docs.bokeh.org/en/latest/)

27.3.5 R

  • R(https://www.r-project.org/)

27.4 尋找資料

  • Reddit的r/datasets論壇(https://www.reddit.com/r/datasets/)
  • Reddit的r/data論壇(https://www.reddit.com/r/data/)
  • 亞馬遜網站的公共資料集(https://registry.opendata.aws/)
  • Kaggle(https://www.kaggle.com/)

相關文章