實用!7個強大的Python機器學習庫!⛵

ShowMeAI發表於2022-12-19
實用!7個強大的Python機器學習庫!⛵

? 作者:韓信子@ShowMeAI
? 機器學習實戰系列https://www.showmeai.tech/tutorials/41
? 本文地址https://www.showmeai.tech/article-detail/412
? 宣告:版權所有,轉載請聯絡平臺與作者並註明出處
? 收藏ShowMeAI檢視更多精彩內容

? 前言

實用!7個強大的Python機器學習庫!⛵

我們總說“不要重複發明輪子”,python中的第3方工具庫就是最好的例子。藉助它們,我們可以用簡單的方式編寫複雜且耗時的程式碼。在本篇內容中,ShowMeAI給大家整理了 7 個有用的 Python 庫,如果大家從事機器學習工作,一定要來一起了解一下。

? 工具庫介紹

? 1.Prophet

?Prophet 是 Facebook 開源的時間序列預測工具庫,基於 Stan 框架,可以自動檢測時間序列中的趨勢、週期性和節假日效應,並根據這些資訊進行預測。這個庫在 GitHub 上有超過 15k 星。

實用!7個強大的Python機器學習庫!⛵

Prophet 通常用於預測未來幾個月、幾年或幾十年的時間序列資料,例如銷售額、市場份額等。它提供了 Python 和 R 兩個版本,可以跨平臺使用,支援 CPU 和 GPU 的並行運算。Prophet 的輸入資料格式要求是一個包含時間戳和目標值的資料框,並支援給定時間範圍、預測期限和寬限期等引數進行預測。Prophet 對缺失資料和趨勢變化很穩健,通常可以很好地處理異常值。

# Python
forecast = m.predict(future)
forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()
實用!7個強大的Python機器學習庫!⛵

? 2.Deep Lake

?Deep Lake 是一種資料集格式,提供簡單的 API 以用於建立、儲存和協作處理任何規模的 AI 資料集。這個庫在 GitHub 上有超過 5k 星。

實用!7個強大的Python機器學習庫!⛵

Deep Lake 的資料佈局可以在大規模訓練模型的同時,實現資料的快速轉換和流式傳輸。谷歌、Waymo、紅十字會、牛津大學等都在使用 Deep Lake。

for epoch in range(2):
    running_loss = 0.0
    for i, data in enumerate(deeplake_loader):
    images, labels = data['images'], data['labels']

    # zero the parameter gradients
    optimizer.zero_grad()

    # forward + backward + optimize
    outputs = net(images)
    loss = criterion(outputs, labels.reshape(-1))
    loss.backward()
    optimizer.step()

    # print statistics
    running_loss += loss.item()
    if i % 100 == 99: #print every 100 mini-batches
        print('[%d, %5d] loss: %.3f' %
        (epoch + 1, i + 1, running_loss / 100))
        running_loss = 0.0

? 3.Optuna

?Optuna 是一個自動機器學習超引數調優工具,可以幫助使用者透過使用各種規則自動調整機器學習模型的超引數,以提高模型的效能。這個庫在 GitHub 上擁有超過 7k 顆星。

實用!7個強大的Python機器學習庫!⛵

Optuna 使用了貝葉斯最佳化演算法來自動調整超引數,並使用基於樹的方法來探索引數空間。這使得 Optuna 能夠在訓練機器學習模型時自動進行超引數調整,從而提高模型的效能。Optuna 可以與各種機器學習框架整合使用,包括 TensorFlow、PyTorch、XGBoost 等。它還支援多種最佳化目標,包括最小化損失函式、最大化準確率等。

總的來說,Optuna是一個強大的工具,可以幫助使用者提高機器學習模型的效能,提高模型的準確率。它的易用性和可擴充套件性使它成為機器學習工作流中的一個重要工具。

import ...

# Define an objective function to be minimized.
def objective(trial):

    # Invoke suggest methods of a Trial object to generate hyperparameters

    regressor_name = trial.suggest_categorical('regressor',['SVR', 'RandomForest'])
    if regressor_name = 'SVR':
        svr_c = trial.suggest_float('svr_c', 1e-10, 1e10, log=True)
        regressor_obj = sklearn.svm.SVR(C=svr_c)
    else:
        rf_max_depth = trial.suggest_int('rf_max_depth', 2, 332)
        regressor_obj = sklearn.ensemble.RandomForestRegressor(max_depth=rf_max_depth)

    X, y = sklearn.datasets.fetch_california_housing(return_X_y=True)
    X_train, X_val, y_train, y_val = sklearn.model_selection.train_test_split(X, y, random_state=0)

    regressor_obj.fit(X_train, y_train) y_pred = regressor_obj.predict(X_val)

    error = sklearn.metrics.mean_squared_error(y_val, y_pred)

    return error # An objective value linked with the Trial object.

study = optuna.create_study() # Create a neW study
study.optimize(objective, n_trials=100) # Invoke opotimization of the objective function

? 4.pycm

?pycm 是一個用於計算二分類和多分類指標的 Python 庫。這個庫在 GitHub 上有超過 1k 星。

實用!7個強大的Python機器學習庫!⛵

它可以計算多種常用的指標,包括準確率、召回率、F1值、混淆矩陣等。此外,pycm 還提供了一些額外的功能,例如視覺化混淆矩陣、評估模型效能的指標來源差異等。pycm是一個非常實用的庫,可以幫助快速評估模型的效能。

from pycm import *
y_actu = [2, 0, 2, 2, 0, 1, 1, 2, 2, 0, 1, 2] 
y_pred = [0, 0, 2, 1, 0, 2, 1, 0, 2, 2, 2, 2]

cm = ConfusionMatrix(actual_vector=y_actu, predict_vector=y_pred)

cm.classes

cm.print_matrix() 

cm.print_normalized_matrix()

? 5.NannyML

?NannyML 是一個開源的 Python 庫,允許估算部署後的模型效能(而無需訪問目標),檢測資料漂移,並智慧地將資料漂移警報連結回模型效能的變化。這個庫在 GitHub 上有超過 1k 星。

實用!7個強大的Python機器學習庫!⛵

為資料科學家設計的 NannyML 具有易於使用的互動式視覺化介面,目前支援所有表格式的用例(tabular use cases)、分類(classification)和迴歸(regression)。NannyML 的核心貢獻者研發了多種用於估算模型效能的新演算法:基於信心的效能估算(CBPE)與直接損失估算(DLE)等。NannyML 透過構建“效能監控+部署後資料科學”的閉環,使資料科學家能夠快速理解並自動檢測靜默模型故障。透過使用 NannyML,資料科學家最終可以保持對他們部署的機器學習模型的完全可見性和信任。

import nannyml as nml
from IPython.display import display

# Load synthetic data

reference, analysis, analysis_target = nml.load_synthnetic_binary_classification_dataset()
display(reference.head())
display(analysis.head())

# Choose a chunker or set a chunk size
chunk size = 5000

# initialize, specify required data columns,, fit estimator and estimate
estimator = nml.CBPE(
    y_pred_proba='y_pred_proba',
    y_pred='y_pred',
    y_true='work_home_actual',
    metrics=['roc_auc'],
    chunk_size=chunk_size,
    problem_type='classification_binary',
)
estimator = estimator.fit(reference)
estimated_performance = estimator.estimate(analysis)

# Show results
figure = estimated_performance.plot(kind='performance', metric='roc_auc', plot_reference=True)
figure.show()

? 6.ColossalAI

?ColossalAI 是一個開源機器學習工具庫,用於構建和部署高質量的深度學習模型。這個庫在 GitHub 上有超過 6.5k 星。

實用!7個強大的Python機器學習庫!⛵

ColossalAI 提供了一系列預定義的模型和模型基礎架構,可用於快速構建和訓練模型。它還提供了一系列工具,用於模型評估,調優和視覺化,以確保模型的高質量和準確性。此外,ColossalAI 還支援部署模型,使其能夠透過各種不同的介面與其他系統整合。ColossalAI 的優勢在於它易於使用,可以為資料科學家和機器學習工程師提供快速和有效的方法來構建和部署高質量的大型模型。

from colossalai.logging import get_dist_logger
from colossalai.trainer import Trainer, hooks

# build components and initialize with colossaalai.initialize
...

# create a logger so that trainer can log on thhe console
logger = get_dist_logger()

# create a trainer object
trainer = Trainer(
    engine=engine,
    logger=logger
)

? 7.emcee

?emcee 是一個開源的 Python 庫,用於使用 Markov chain Monte Carlo(MCMC)方法進行模型擬合和引數估計。這個庫在 GitHub 上有超過 1k 星。

實用!7個強大的Python機器學習庫!⛵

emcee是物件導向的,並且具有用於診斷和除錯擬合過程的許多工具。它使用了一種叫做"決策樹結構鏈"的方法,可以並行化擬合過程,提高擬合效率。emcee 非常適合處理複雜的非線性模型,並且可以輕鬆擴充套件到大型資料集。它也可以輕鬆與其他 Python 庫整合,如 NumPy、SciPy和Matplotlib。

import numpy as np
import emcee

def log_prob(x, ivar):
    return -0.5 * np.sum(ivar * x ** 2) 

ndim, nwalkers = 5, 100

ivar = 1./np.random.rand(ndim)
p0 = np.random.randn(nwalkers, ndim)

sampler = emcee.EnsembleSampler(nwalkers, ndim, log_prob, args=[ivar])
sampler.run_mcmc(p0, 10000)

? 總結

以上就是ShowMeAI給大家做的工具庫介紹,這7個工具庫都是非常有用的,對於機器學習工作者來說,它們可以大大提高工作效率,讓你能夠在簡單的方式下編寫複雜的程式碼。所以,如果你還沒有了解這些工具庫的話,不妨花一點時間來了解一下。

參考資料

推薦閱讀

? 資料分析實戰系列https://www.showmeai.tech/tutorials/40
? 機器學習資料分析實戰系列https://www.showmeai.tech/tutorials/41
? 深度學習資料分析實戰系列https://www.showmeai.tech/tutorials/42
? TensorFlow資料分析實戰系列https://www.showmeai.tech/tutorials/43
? PyTorch資料分析實戰系列https://www.showmeai.tech/tutorials/44
? NLP實戰資料分析實戰系列https://www.showmeai.tech/tutorials/45
? CV實戰資料分析實戰系列https://www.showmeai.tech/tutorials/46
? AI 面試題庫系列https://www.showmeai.tech/tutorials/48

實用!7個強大的Python機器學習庫!⛵

相關文章