.NET資料探勘與機器學習開源框架

心冰之海發表於2024-10-20

資料探勘與機器學習開源框架

1.1 框架概述

1.1.1 AForge.NET

  AForge.NET是一個專門為開發者和研究者基於C#框架設計的,他包括計算機視覺與人工智慧,影像處理,神經網路,遺傳演算法,機器學習,模糊系統,機器人控制等領域。這個框架由一系列的類庫組成。主要包括有:

AForge.Imaging —— 一些日常的影像處理和過濾器
AForge.Vision —— 計算機視覺應用類庫
AForge.Neuro —— 神經網路計算庫AForge.Genetic -進化演算法程式設計庫
AForge.MachineLearning —— 機器學習類庫
AForge.Robotics —— 提供一些機器學習的工具類庫
AForge.Video —— 一系列的影片處理類庫
AForge.Fuzzy —— 模糊推理系統類庫
AForge.Controls—— 影像,三維,圖表顯示控制元件

來自:http://baike.haosou.com/doc/1786119-1888850.html

官方網站http://www.aforgenet.com/

1.1.2 Accord.NET Framework

   Accord.NET Framework是在AForge.NET基礎上封裝和進一步開發來的。功能也很強大,因為AForge.NET更注重與一些底層和廣度,而Accord.NET Framework更注重與機器學習這個專業,在其基礎上提供了更多統計分析和處理函式,包括影像處理和計算機視覺演算法,所以側重點不同,但都非常有用。    

官方網站http://accord-framework.net/

1.1.3 Math.NET

  不管是機器學習還是資料探勘,都與數學離不開關係,既然是在.NET平臺,那麼這個元件以後你也許用得上。Math.NET是.NET平臺下最全面的數學計算元件之一,基礎功能非常完善。我的部落格有對這個元件的詳細研究:http://www.cnblogs.com/asxinyu/p/4329737.html 。當然更多的功能還得大家自己使用中發掘,畢竟提供了原始碼。Math.NET初衷是開源建立一個穩定並持續維護的先進的基礎數學工具箱,以滿足.NET開發者的日常需求。目前該元件主要分為以下幾個子專案,該元件同時也支援Mono,而且支援的平臺也非常廣泛。Math.NET Numerics是核心功能是數值計算。主要是提供日常科學工程計算相關的演算法,包括一些特殊函式,線性代數,機率論,隨機函式,微積分,插值,最最佳化等相關計算功能。詳細的介紹和使用可以參考本站的選單“Math.NET”,檢視目錄。

官方網站http://www.mathdotnet.com/

1.1.4 Infer.NET

  上面說的那些很強大,強大一方面是說包括的面廣,一方面是程式碼,註釋,資源,案例也很完善。如果說上面那些是大炮,那麼這個Infer.NET就是戰鬥機,部落格已經發表了2篇翻譯的文件:http://www.cnblogs.com/asxinyu/p/4329742.html,請關注。

  Infer.NET是微軟劍橋研究院基於.NET平臺開發的一款機器推理元件,該元件的採用的是Microsoft Research License Agreement 授權,Non-Commercial Use Only.Infer.NET是一個機率圖模型中(graphical models)用於執行貝葉斯推理機(Bayesian inference)的框架。如果對機率圖模型或者貝葉斯推理的意義不瞭解,你可以參考一下相關資原始檔,在Resources and References page頁面。Infer.NET為各種應用程式所需要推理提供了先進的訊息傳遞演算法和統計程式。Infer.NET更關注與機率圖程式設計或者貝葉斯理論的相關應用。這個隨機因素和不確定世界中的很多問題,都可以適用,所以他的強大一方面是專注,另一方面是提供的建模語言。與其他的元件不同,其他元件是演算法級,而Infer.NET是建模級別,附帶了各種通用和常見的推理演算法。可以透過簡單的程式碼來建立模型,按照微軟的話說是MSL建模語言,這也是這個元件讓我肅然起敬的地方,估計也只有微軟的研究人員才會想到這麼幹一勞永逸的事情。

官方網站http://research.microsoft.com/en-us/um/cambridge/projects/infernet/default.aspx

1.1.5 numl

  另外一個小巧的,包含比較多的機器學習演算法類庫,支援監督式和非監督式學習。支援很多常見的機器學習演算法,文件資源還不錯。包括Cluster,KMeans,PCA,DecisionTree,KNN,NaiveBayes,NeuralNetwork等學習演算法,內容也非常豐富,功能強大,同時也包括一些數值計算的實現。這個元件個人認為沒有以上的那麼複雜,結構小巧合理,程式碼也很優雅。看看下面這段程式碼,很快就可以構建一個決策樹學習器進行預測:

 1 var generator = new DecisionTreeGenerator(); 
2 generator.Descriptor = Descriptor.Create<Tennis>();
 3 generator.SetHint(false); 
4  
5 Tennis[] tennis = TennisData.GetData(); 
6  
7 var learned = Learner.Learn(tennis, 0.80, 1000, generator); 
8  
9 IModel model = learned.Model;10 double accuracy = learned.Accuracy;
11 12 Tennis t = new Tennis
13 {
14     Outlook = Outlook.Sunny,
15     Temperature = Temperature.High,
16     Windy = false
17 };
18
 19 Tennis predictedVal = model.Predict(t);

  numl的入門案例和文件比較全面,如果本身對演算法比較瞭解,熟悉C#,那入門應該不是問題。並且可以透過元件本身構建和解決更加複雜的問題。

官方網站http://numl.net/

1.1.6 Alglib

  ALGLIB是一個跨平臺的數值分析和資料處理函式庫,該函式庫包括開源版本和商業版本。它支援多種程式語言,如C++,C#,Pascal,VBA等,可以在多個作業系統平臺上執行,如:Windows,Linux和Solaris。ALGLIB有以下特點:

(1)線性代數(包括矩陣分析);
(2)方程求解(線性和非線性);
(3)插值;
(4)最最佳化;
(5)快速傅立葉變換;
(6)數值積分;
(7)線性和非線性最小二乘擬合;
(8)常微分方程求解;
(9)特殊函式;
(10)統計(描述統計、假設檢驗);
(11)資料分析(分類、迴歸、神經網路);

官方網站http://www.alglib.net/

2. Accord.NET框架

Accord.NET為.NET應用程式提供了統計分析、機器學習、影像處理、計算機視覺相關的演算法。

Accord.NET框架擴充套件了AForge.NET框架,

提供了一些新功能。

同時為.NET環境下的科學計算提供了一個完整的開發環境。

該框架被分成了多個程式集,

可以直接從官網下載安裝檔案或者使用NuGet得到。

可以參考以下連結:https://github.com/accord-net/framework/wiki

2.1框架的三大功能模組

Accord.NET框架主要有三個大的功能性模組。

分別為科學技術,

訊號與影像處理,

支援元件。

下面將對3個模型的名稱空間和功能進行簡單介紹。

可以讓大家更快的接觸和了解其功能是否是自己想要的,

下面是主要的名稱空間介紹。

2.1.1 科學計算

Accord.Math:包括矩陣擴充套件程式,以及一組矩陣數值計算和分解的方法,也包括一些約束和非約束問題的數值最佳化演算法,還有一些特殊函式以及其他一些輔助工具。

Accord.Statistics:包含機率分佈、假設檢驗、線性和邏輯迴歸等統計模型和方法,隱馬爾科夫模型,(隱藏)條件隨機域、主成分分析、偏最小二乘判別分析、核心方法和許多其他相關的技術。

Accord.MachineLearning: 為機器學習應用程式提供包括支援向量機,決策樹,樸素貝葉斯模型,k-means聚類演算法,高斯混合模型和通用演算法如Ransac,交叉驗證和網格搜尋等演算法。

Accord.Neuro:包括大量的神經網路學習演算法,如Levenberg-Marquardt,Parallel Resilient Backpropagation,Nguyen-Widrow初始化演算法,深層的信念網路和許多其他神經網路相關的演算法。具體看參考幫助文件。

2.1.2 訊號與影像處理

Accord.Imaging:包含特徵點探測器(如Harris, SURF, FAST and FREAK),影像過濾器、影像匹配和影像拼接方法,還有一些特徵提取器。

Accord.Audio:包含一些機器學習和統計應用程式說需要的處理、轉換過濾器以及處理音訊訊號的方法。

Accord.Vision:實時人臉檢測和跟蹤,以及對人流影像中的一般的檢測、跟蹤和轉換方法,還有動態模板匹配追蹤器。

2.1.3 支援元件

主要是為上述一些元件提供資料顯示,繪圖的控制元件,分為以下幾個名稱空間:

Accord.Controls:包括科學計算應用程式常見的柱狀圖、散點圖和表格資料瀏覽。

Accord.Controls.Imaging:包括用來顯示和處理的影像的WinForm控制元件,包含一個方便快速顯示影像的對話方塊。

Accord.Controls.Audio:顯示波形和音訊相關性資訊的WinForm控制元件。

Accord.Controls.Vision:包括跟蹤頭部,臉部和手部運動以及其他計算機視覺相關的任務WinForm控制元件。

2.2 支援的演算法介紹

下面將Accord.NET框架包括的主要功能演算法按照類別進行介紹。來源主要是官網介紹,進行了簡單的翻譯和整理。

2.2.1 分類(Classification)

SVM(支援向量機,類SupportVectorMachine、類KernelSupportVectorMachine、類SequentialMinimalOptimization—序列最小最佳化演算法)、

K-NN鄰近演算法(類KNearestNeighbors);

Logistic Regression(邏輯迴歸)、

Decision Trees(決策樹,類DecisionTree、ID3Learning、C45Learning)、

Neural Networks(神經網路)、

Deep Learning(深度學習)

(Deep Neural Networks深層神經網路)、

Levenberg-Marquardt with Bayesian Regularization、

Restricted Boltzmann Machines(限制玻耳茲曼機)、

Sequence classification (序列分類),

Hidden Markov Classifiers and Hidden Conditional Random Fields(隱馬爾科夫分類器和隱藏條件隨機域)。

2.2.2 迴歸(Regression)

Multiple linear regression(多元線性迴歸-單因變數多自變數)、

SimpleLinearRegression(線性迴歸,類SimpleLinearRegression)、

Multivariate linear regression(多元線性迴歸-多因變數多自變數)、polynomial regression (多項式迴歸)、logarithmic regression(對數迴歸)、Logistic regression(邏輯迴歸)、multinomial logistic regression(多項式邏輯迴歸)(softmax) and generalized linear models(廣義線性模型)、L2-regularized L2-loss logistic regression , L2-regularized logistic regression , L1-regularized logistic regression , L2-regularized logistic regression in the dual form and regression support vector machines。

2.2.3 聚類(Clustering)

K-Means、K-Modes、Mean-Shift(均值漂移)、Gaussian Mixture Models(高斯混合模型)、Binary Split(二元分裂)、Deep Belief Networks(深層的信念網路)、 Restricted Boltzmann Machines(限制玻耳茲曼機)。聚類演算法可以應用於任意資料,包括影像、資料表、影片和音訊。

2.2.4 機率分佈(Distributions)

包括40多個分佈的引數和非引數估計。包括一些常見的分佈如正態分佈、柯西分佈、超幾何分佈、泊松分佈、伯努利;也包括一些特殊的分佈如Kolmogorov-Smirnov , Nakagami、Weibull、and Von-Mises distributions。也包括多元分佈如多元正態分佈、Multinomial 、Independent 、Joint and Mixture distributions。

2.2.5 假設檢驗(Hypothesis Tests)

超過35統計假設測試,包括單向和雙向方差分析測試、非引數測試如Kolmogorov-Smirnov測試和媒體中的訊號測試。contingency table tests such as the Kappa test,with variations for multiple tables , as well as the Bhapkar and Bowker tests; and the more traditional Chi-Square , Z , F , T and Wald tests .

2.2.6 核方法(Kernel Methods)

核心支援向量機,多類和多標籤向量機、序列最小最佳化、最小二乘學習、機率學習。Including special methods for linear machines such as LIBLINEAR's methods for Linear Coordinate Descent , Linear Newton Method , Probabilistic Coordinate Descent , Probabilistic Coordinate Descent in the Dual , Probabilistic Newton Method for L1 and L2 machines in both the dual and primal formulations .

2.2.7 影像(Imaging)

興趣和特徵點探測器如Harris,FREAK,SURF,FAST。灰度共生矩陣,Border following,Bag-of-Visual-Words (BoW),RANSAC-based homography estimation , integral images , haralick textural feature extraction , and dense descriptors such as histogram of oriented gradients (HOG) and Local Binary Pattern (LBP).Several image filters for image processing applications such as difference of Gaussians , Gabor , Niblack and Sauvola thresholding。還有幾個影像處理中經常用到的影像過濾器。

2.2.8 音訊訊號(Audio and Signal)

音訊訊號的載入、解析、儲存、過濾和轉換,如在空間域和頻域應用音訊過濾器。WAV檔案、音訊捕捉、時域濾波器,高通,低通,波整流過濾器。Frequency-domain operators such as differential rectification filter and comb filter with Dirac's delta functions . Signal generators for Cosine , Impulse , Square signals.

2.2.9 視覺(Vision)

實時人臉檢測和跟蹤,以及影像流中檢測、跟蹤、轉換的一般的檢測方法。Contains cascade definitions , Camshift and Dynamic Template Matching trackers . Includes pre-created classifiers for human faces and some facial features such as noses。

2.2.10降維技術

SVD奇異值分解(OctaveEnvironment.svd方法);

PCA主成分分析(類PrincipalComponent);

ICA獨立成份分析(類IndependentComponetAnalysis)

2.2.11演算法精度測算

混淆矩陣(類ConfusionMatrix);

ROC曲線評估(類ReceiverOperatingCharacteristic);

Bootstrap演算法(自助演算法;類(Bootstrap));

CrossValidation演算法(交叉檢驗;類(CrossValidation));

2.3 相關資源

從專案主頁:http://accord-framework.net/下載的壓縮包中,包括了幾乎所有的線上資源。如下圖,介紹幾個主要的資源:

Debug是一些用於除錯的程式集,Docs是幫助文件,Externals是一些輔助的元件,Release是不同.NET環境的Dll程式集版本,Samples是案例原始碼,Setup是安裝的程式,Sources是專案的原始碼,Unit Tests是單元測試程式碼。

Accord.Net框架原始碼託管在GitHub:

https://github.com/accord-net/framework/

3、Math.Net框架

3.1.Math.NET基本介紹

Math.NET官方網站:http://www.mathdotnet.com/

  Math.NET初衷是開源建立一個穩定並持續維護的先進的基礎數學工具箱,以滿足.NET開發者的日常需求。目前該元件主要分為以下幾個子專案,該元件同時也支援Mono,而且支援的平臺也非常廣泛(PCL Portable Profile 47: Windows 8, Silverlight 5,Xamarin: Android, iOS)。

3.2.Math.NET Numerics

  Math.NET Numerics是核心功能是數值計算。主要是提供日常科學工程計算相關的演算法,包括一些特殊函式,線性代數,機率論,隨機函式,微積分,插值,最最佳化等相關計算功能。它是在 Math.NET Iridium和dnAnalytics 的基礎上合併而來。該元件裡面包括了一個讀取Matlab資料格式的功能,我們將在後幾篇部落格中加以介紹。其主要特徵有:http://en.wikipedia.org/wiki/Math.NET_Numerics

 支援機率分佈:離散型、連續型和多元

  偽隨機數生成器

  支援稀疏矩陣和向量的複雜的線性代數解決方法

  LU, QR, SVD, EVD,Cholesky分解

  矩陣讀寫功能,支援Matlab和一些分開的檔案

  複數計算

  特殊函式: Gamma, Beta, Erf,Bessel,Struve 等等

  插值,線性迴歸,曲線擬合

  數值積分,方程求解

  描述性統計、統計直方圖,皮爾森相關係數

  馬爾可夫鏈蒙特卡羅抽樣

  基本的財務統計資料

  傅立葉變換(FFT)

  過載的數學運算子來簡化複雜的表示式

  Mono平臺支援,可選支援英特爾數學核心庫(Microsoft Windows和Linux)

  可選更多的的F#擴充套件用法

  該子專案的主頁:https://github.com/mathnet/mathnet-numerics

3.3.Math.NET Symbolics

  Math.NET Symbolics是一個Math.NET下一個基礎的代數計算專案,該專案的最終目的並不是要成為如Maple,Mathematica那樣一個完善的計算機代數計算系統。以前在做Matlab.NET混合程式設計的時候,經常就有人問為什麼混合程式設計的符號計算用不了,其實就是用不了,官方不支援,那怎麼辦,其實簡單的功能,就可以使用這個專案來完成。詳細的使用可以參考專案主頁的幫助文件,接下來的文章也會加以介紹。

  專案主頁:https://github.com/mathnet/mathnet-symbolics

3.4.Math.NET Filtering

  Math.NET Filtering是一個數字訊號處理工具箱,提供了數字濾波器的基礎功能,以及濾波器應用到數字訊號處理和資料流轉換的相關功能。

  專案主頁:https://github.com/mathnet/mathnet-filtering

3.5.Math.NET Spatial

  是Math.NET下的一個幾何處理工具箱。

  專案主頁:https://github.com/mathnet/mathnet-spatial

3.6.其他

  Math.NET在發展過程中的一些其他專案如Math.NET Iridium ,Math.NET Classic, Math.NET Linq Algebra, Math.NET Yttrium等都是歷史(有一些是實驗性的),現在都已經合併到上述幾個子專案中。

相關文章