scikit-learn 中 Boston Housing 資料集問題解決方案

shadow_D發表於2023-04-13

原文網址 : https://www.cnblogs.com/shadow-/p/17315090.html

scikit-learn 中 Boston Housing 資料集問題解決方案

在部分舊教程或教材中是 sklearn，現在【2023】已經變更為 scikit-learn

作用：開源機器學習庫，支援有監督和無監督學習。它還提供了用於模型擬合、資料預處理、模型選擇、模型評估和許多其他實用程式的各種工具。

安裝 pip install scikit-learn

Boston Housing 資料集

此資料集原本應該在 sklearn 中是自帶資料集之一，但在 scikit-learn 1.2 版本由於某些特殊原因被移除，所以無法使用 load_boston() 獲取

解決辦法：既然自帶的資料集沒有 Boston Housing，那就想辦法在網上找到開放式公共資料集，下載後載入到程式中。這也是網上常見的解決方案，大多借助 pandas, scipy, numpy 等方法下載，然後標準化載入資料，供 scikit-learn 使用。

我將表述一下我所有使用的方法：透過從 openml.org 儲存庫下載資料集，我直接使用 fetch_openml()

from sklearn.datasets import fetch_openml

data_x, data_y = fetch_openml(name="boston", version=1, as_frame=True, return_X_y=True, parser="pandas")

其中 name 是資料集在 openml.org 上的名稱
version 是版本號，根據 openml.org 上的描述，使用 1 版本是原始資料集，所以我選擇 1 版本，具體根據對應資料集的描述選擇
as_frame=True 表示返回 pandas 的 DataFrame 格式，這樣可以直接使用 pandas 的方法進行資料處理
return_X_y 表示分別返回特徵和標籤，如果為 False 則返回一個字典【包含特徵和標籤】，如果你想要的是字典格式，可以設定為 False，而且預設也是 False
parser 表示用於載入 ARFF 檔案的解析器，預設的是 liac-arff
更復雜的參考官方檔案：https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml

對 as_frame 分不分，看下面的內容你應該會有熟悉感覺，一般在分配訓練資料和測試資料時都是下面步驟，我實驗需求決定，所以我直接使用 as_frame=True 獲取我想要的資料，如果你需要完整的，可以不使用 as_frame=True

from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(data_x, data_y, test_size=0.3, random_state=1001)

其他問題

使用上面可能會遇見一些問題【TypeError: can't multiply sequence by non-int of type 'float'】，一般是資料集格式問題，我在使用中是使用 numpy 進行調整的

import numpy as np
from sklearn import linear_model

model = linear_model.LinearRegression()
model.fit(train_x, train_y)
pred_y = model.predict(test_x.astype(np.float64))

像是 predict 運算時，需要將 test_x 轉換為 np.float64 型別，反正報錯時會提醒你使用什麼格式的資料，根據情況進行轉換就可以了

上面載入資料集時我使用 parser="pandas" 也是為了避免，sklearn 中有時對 pandas 資料格式的需求

總結

想辦法獲取遠端或離線的資料集，透過 scikit-learn 自帶工具或其他工具【pandas, scipy, numpy 等】載入即可使用，在使用時注意不同情況下使用的資料格式並做出對應調整。

scikit-learn 適用於儲存為 numpy 陣列或 scipy 稀疏矩陣的任何數字資料，因為 scikit-learn 開發中也使用這些工具。比如在上面的報錯中有部分內部程式碼涉及 np，所以使用 numpy 轉化格式就解決了報錯問題。

File /opt/conda/envs/education/lib/python3.8/site-packages/sklearn/utils/extmath.py:189, in safe_sparse_dot(a, b, dense_output)
    187         ret = np.dot(a, b)
    188 else:
--> 189     ret = a @ b

構建Potatso問題集錦及解決方案
2019-03-04
Swoole - TCP流資料邊界問題解決方案
2020-05-19
TCP
Vue中跨域問題解決方案1
2020-05-16
Vue跨域
JS中toFixed()方法的問題及解決方案
2020-12-22
JS
跨域問題，解決方案 – CORS方案
2019-03-04
跨域CORS
Vuex資料頁面重新整理丟失問題解決方案
2021-09-09
Vue
資源限制類問題的常用解決方案
2021-10-06
資料採集行業現狀及解決方案
2023-01-16
行業
解決pl/sql developer中資料庫插入資料亂碼問題
2020-11-04
SQLDeveloper資料庫
Java中解決多執行緒資料安全問題
2021-08-16
Java執行緒
解決AI的小資料問題
2020-02-12
AI
跨域問題及解決方案
2018-12-17
跨域
HA腦裂問題解決方案
2024-10-19
SpringBoot跨域問題解決方案
2021-09-05
Spring Boot跨域
使用Kettle抽取資料時，出現中文亂碼問題解決方案
2018-06-27
高併發下資料冪等問題的9種解決方案
2024-03-23
Swoole 學習筆記 - TCP 流資料邊界問題解決方案
2020-05-19
筆記TCP
工作中碰到的Java問題整理及解決方案
2018-09-28
Java
快取世界中的三大問題及解決方案
2018-03-14
快取
ElasticSearch第3篇大資料處理3大問題（“10000條”問題解決方案、hits total值統計總數不精確解決方案、大資料深度分頁效能問題3種最佳化方案）
2024-07-28
Elasticsearch大資料
【scikit-learn基礎】--『資料載入』之外部資料集
2023-12-09
【scikit-learn基礎】--『資料載入』之玩具資料集
2023-12-04
大資料解決方案
2020-01-02
大資料
解決hive資料庫插入資料很慢的問題
2024-09-23
Hive資料庫
sbt配置——資料來源問題解決
2018-09-14
資料庫層面問題解決思路
2021-05-15
資料庫
Mycat分片方案需要解決的問題
2018-05-03
玩Deno遇到問題的解決方案
2018-06-02
前端跨域問題及其解決方案
2018-06-30
前端跨域
WordPress：常見問題及解決方案
2024-03-10
Flutter Web 跨域問題解決方案
2020-03-02
FlutterWeb跨域
vue許可權問題解決方案
2019-05-07
Vue
nginx /Java 解決跨域問題方案
2024-06-05
NginxJava跨域
壓塊機PLC資料採集物聯網解決方案
2024-01-05
資料採集標註行業現狀及解決方案
2023-01-16
行業
【scikit-learn基礎】--『資料載入』之真實資料集
2023-12-06
HHMySQL?中定位?DDL?被阻塞的問題及解決方案xmw
2022-03-01
MySql
Java多執行緒：資料一致性問題及解決方案
2023-12-29
Java執行緒

scikit-learn 中 Boston Housing 資料集問題解決方案

scikit-learn 中 Boston Housing 資料集問題解決方案

Boston Housing 資料集

其他問題

總結

相關文章