Python數模筆記-Sklearn（1）介紹

youcans發表於2021-05-09

原文網址 : https://www.cnblogs.com/youcans/p/14748020.html

Python筆記

1、SKlearn 是什麼

　　Sklearn（全稱 SciKit-Learn），是基於 Python 語言的機器學習工具包。

　　Sklearn 主要用Python編寫，建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基礎上，也用 Cython編寫了一些核心演算法來提高效能。

　　Sklearn 包括六大功能模組：

分類（Classification）：識別樣本屬於哪個類別，常用演算法有 SVM（支援向量機）、nearest neighbors（最近鄰）、random forest（隨機森林）
迴歸（Regression）：預測與物件相關聯的連續值屬性，常用演算法有 SVR（支援向量機）、 ridge regression（嶺迴歸）、Lasso
聚類（Clustering）：對樣本進行無監督的自動分類，常用演算法有 k-Means（k均值）、spectral clustering（特徵聚類）、mean-shift（均值漂移）
資料降維（Dimensionality reduction）：減少相關變數維數，常用演算法有 PCA（主成分分析）、feature selection（特徵選擇）、non-negative matrix factorization（非負矩陣分解）
模型選擇（Model Selection）：比較，驗證，選擇引數和模型，常用模組有 grid search（網格搜尋）、cross validation（交叉驗證）、 metrics（度量）
資料處理（Preprocessing）：特徵提取和歸一化，常用模組有 preprocessing（預處理），feature extraction（特徵提取）

這六個功能模組涉及 4類演算法，分類、迴歸屬於監督學習，聚類屬於非監督學習。

　　官網地址：https://scikit-learn.org/

　　官方文件中文版： https://www.scikitlearn.com.cn/

　　內建資料集：https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安裝

　　Sklearn 的安裝要求：Python 3.5 以上版本，需要安裝 NumPy、SciPy、Pandas 工具包的支援，部分內容需要使用 Matplotlib、joblib 工具包。

　　pip 安裝命令：
　　

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

　　注意 Sklearn 建議安裝 Numpy+mkl，可以在網址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本，下載後 pip3安裝：

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 內建資料集

　　Sklearn 內建了一些標準資料集可以用於練習和測試，都是經常被引用的經典問題，資料網址：https://scikit-learn.org/stable/datasets.html
　　
　　Sklearn 標準資料集主要包括：

測試問題資料集
- 1. 波士頓房價：Boston house prices dataset
- 1. 鳶尾花問題：Iris plants dataset
- 1. 糖尿病資料：Diabetes dataset
- 1. 手寫數字的識別：Optical recognition of handwritten digits dataset
- 1. 葡萄酒鑑別：Linnerrud dataset
- 1. 葡萄酒鑑別Wine recognition dataset
- 1. 威斯康星州癌症診斷：reast cancer wisconsin (diagnostic) dataset
實際問題資料集
- 1. 人臉資料：The Olivetti faces dataset
- 1. 20個新聞文字資料：The 20 newsgroups text dataset
- 1. 標記的人臉資料：The Labeled Faces in the Wild face recognition dataset
- 1. 森林覆蓋型別：Forest covertypes
- 1. 路透社新聞資料：RCV1 dataset
- 1. 網路入侵檢測資料：Kddcup 99 dataset
- 1. 加州住房資料：California Housing dataset

4、Sklearn 數模筆記的計劃

　　粗略看看 Sklearn 的文件，是一個功能強大和豐富的機器學習庫，遠遠超出了數學建模學習的範圍。
　　基於數模教學的目的，本系列主要對應數模學習中的分類、聚類、降維問題，並不打算全面講解 Sklearn 的各種演算法，而是以典型問題為例來介紹原理簡單、使用廣泛的基本方法，以便新手入門。

Python數模筆記-Sklearn（5）支援向量機
2021-05-16
Python筆記
Python數模筆記-Sklearn（4）線性迴歸
2021-05-13
Python筆記
Python數模筆記-Sklearn（3）主成分分析
2021-05-11
Python筆記
Python數模筆記-Sklearn（2）樣本聚類分析
2021-05-10
Python筆記聚類
Python數模筆記-（1）NetworkX 圖的操作
2021-05-17
Python筆記
【筆記】Python基礎（二）運算子介紹
2018-06-28
筆記Python
Python數模筆記-NetworkX（2）最短路徑
2021-05-18
Python筆記
Python筆記-CSP 201912-1 報數
2020-10-07
Python筆記
golang 學習筆記：第 1 節：GO 語言介紹
2019-11-15
Golang筆記
VisionPro學習筆記（1）——軟體介紹和基本使用
2023-02-15
筆記
Python機器學習筆記：sklearn庫的學習
2018-12-29
Python機器學習筆記
Python 關於JSON模組介紹
2020-04-24
PythonJSON
簡單介紹python process模組
2021-05-28
Python
機器學習入門之sklearn介紹
2019-03-05
機器學習
Python 學習筆記-2-1-變數
2019-03-16
Python筆記變數
celery筆記六之worker介紹
2023-05-11
筆記
Jenkinsant介紹(學習筆記五)
2018-04-26
Jenkins筆記
ffmpeg-入門介紹（筆記）
2021-06-27
筆記
Python之logging模組相關介紹
2021-09-11
Python
python之pymsql模組相關介紹
2021-09-11
PythonSQL
Python collections 模組筆記
2018-04-01
Python筆記
Python數模筆記-NetworkX（3）條件最短路徑
2021-05-21
Python筆記
node表格模組exceljs介紹1–基本使用
2019-02-16
ExcelJS
uboot-uboot介紹-學習筆記
2024-05-03
boot筆記
[PyTorch 學習筆記] 5.1 TensorBoard 介紹
2020-09-05
PyTorch筆記ORB
webpack 學習筆記：入門介紹
2020-09-26
Web筆記
Django筆記十九之manager用法介紹
2023-04-08
Django筆記
Python3 日曆（Calendar）模組介紹
2020-01-16
Python
Python的包(package)和模組(module)介紹
2020-08-05
PythonPackage
Python的常見模組：OS和 time模組介紹
2021-06-08
Python
數值分析1 - 誤差概念介紹
2021-01-04
python學習筆記(1
2019-01-28
Python筆記
python基礎筆記1
2020-10-25
Python筆記
python入門筆記1
2020-04-05
Python筆記
Python全棧工程師學習筆記｜Django框架介紹與安裝
2019-01-03
Python全棧工程師筆記Django框架
Python 筆記-2-1-Python 概述
2019-03-16
Python筆記
Python 複數屬性及操作介紹
2021-06-06
Python
Linux分享筆記：shell終端的介紹
2018-05-31
Linux筆記

Python數模筆記-Sklearn（1） 介紹

1、SKlearn 是什麼

2、SKlearn 的安裝

3、SKlearn 內建資料集

4、Sklearn 數模筆記的計劃

相關文章

Python數模筆記-Sklearn（1）介紹