【原創】開源Math.NET基礎數學類庫使用(11)C#計算相關係數

資料之巔發表於2015-03-12

開源Math.NET基礎數學類庫使用總目錄：【目錄】開源Math.NET基礎數學類庫使用總目錄

前言

　　資料集的基本統計計算是應用數學，以及統計應用中最常用的功能。如計算資料集的均值，方差，標準差，最大值，最小值，熵等等。Math.NET中的MathNet.Numerics.Statistics名稱空間就包括了大量的這些統計計算的函式。今天就為大家介紹的是使用Math.NET計算相關係數的類：Correlation。

　　如果本文資源或者顯示有問題，請參考本文原文地址：http://www.cnblogs.com/asxinyu/p/4301519.html

1.Math.NET計算相關係數的類

　　Correlation類在Math.NET在MathNet.Numerics.Statistics的名稱空間下：

Correlation，靜態類，計算2個資料集的相關度，如皮爾遜積差相關係數,加權皮爾遜積差相關係數,皮爾遜積差相關矩陣等；

　　相關係數的定義如下：

　　相關係數，或稱線性相關係數、皮氏積矩相關係數(Pearson product-moment correlation coefficient, PPCC)等，是衡量兩個隨機變數之間線性相關程度的指標。它由卡爾·皮爾森(Karl Pearson)在1880年代提出[1]，現已廣泛地應用於科學的各個領域。相關係數計算公式中，取值範圍為[-1,1]，r>0表示正相關，r<0表示負相關，|r|表示了變數之間相關程度的高低。特殊地，r=1稱為完全正相關，r=-1稱為完全負相關，r=0稱為不相關。通常|r|大於0.8時，認為兩個變數有很強的線性相關性。

　　Correlation類中的相關係數型別，如加權皮爾遜積差相關係數,皮爾遜積差相關矩陣的含義大家自己進行百度或者根據需要選擇閱讀。

2.Correlation的實現

　　在介紹其使用之前，還是介紹一下Correlation型別的實現和原始碼。該型別是靜態類，其中的靜態方法都是每一個型別的相關係數的計算，因此在使用的時候，根據需要進行呼叫即可。其包含的內容如下，為了方便大家觀看，已經將其中的註釋翻譯為英文了，也相對於說明吧。

/// <summary>2個資料集的相關度計算類</summary>
public static class Correlation
{
    /// <summary>計算皮爾遜積差相關係數</summary>
    /// <param name="dataA">資料樣本A.</param>
    /// <param name="dataB">資料樣本B.</param>
    /// <returns>返回皮爾遜積差相關係數.</returns>
    public static double Pearson(IEnumerable<double> dataA, IEnumerable<double> dataB)
    {
        int n = 0;
        double r = 0.0;

        double meanA = 0;
        double meanB = 0;
        double varA = 0;
        double varB = 0;

        using (IEnumerator<double> ieA = dataA.GetEnumerator())
        using (IEnumerator<double> ieB = dataB.GetEnumerator())
        {
            while (ieA.MoveNext())
            {
                if (!ieB.MoveNext())
                {
                    throw new ArgumentOutOfRangeException("dataB", Resources.ArgumentArraysSameLength);
                }

                double currentA = ieA.Current;
                double currentB = ieB.Current;

                double deltaA = currentA - meanA;
                double scaleDeltaA = deltaA/++n;

                double deltaB = currentB - meanB;
                double scaleDeltaB = deltaB/n;

                meanA += scaleDeltaA;
                meanB += scaleDeltaB;

                varA += scaleDeltaA*deltaA*(n - 1);
                varB += scaleDeltaB*deltaB*(n - 1);
                r += (deltaA*deltaB*(n - 1))/n;
            }

            if (ieB.MoveNext())
            {
                throw new ArgumentOutOfRangeException("dataA", Resources.ArgumentArraysSameLength);
            }
        }

        return r/Math.Sqrt(varA*varB);
    }

    /// <summary>計算加權皮爾遜積差相關係數.</summary>
    /// <param name="dataA">資料樣本A.</param>
    /// <param name="dataB">資料樣本B.</param>
    /// <param name="weights">資料權重.</param>
    /// <returns>加權皮爾遜積差相關係數.</returns>
    public static double WeightedPearson(IEnumerable<double> dataA, IEnumerable<double> dataB, IEnumerable<double> weights)
    {
        int n = 0;

        double meanA = 0;
        double meanB = 0;
        double varA = 0;
        double varB = 0;
        double sumWeight = 0;

        double covariance = 0;

        using (IEnumerator<double> ieA = dataA.GetEnumerator())
        using (IEnumerator<double> ieB = dataB.GetEnumerator())
        using (IEnumerator<double> ieW = weights.GetEnumerator())
        {
            while (ieA.MoveNext())
            {
                if (!ieB.MoveNext())
                {
                    throw new ArgumentOutOfRangeException("dataB", Resources.ArgumentArraysSameLength);
                }
                if (!ieW.MoveNext())
                {
                    throw new ArgumentOutOfRangeException("weights", Resources.ArgumentArraysSameLength);
                }
                ++n;

                double xi = ieA.Current;
                double yi = ieB.Current;
                double wi = ieW.Current;

                double temp = sumWeight + wi;

                double deltaX = xi - meanA;
                double rX = deltaX*wi/temp;
                meanA += rX;
                varA += sumWeight*deltaX*rX;

                double deltaY = yi - meanB;
                double rY = deltaY*wi/temp;
                meanB += rY;
                varB += sumWeight*deltaY*rY;

                sumWeight = temp;

                covariance += deltaX*deltaY*(n - 1)*wi/n;
            }
            if (ieB.MoveNext())
            {
                throw new ArgumentOutOfRangeException("dataB", Resources.ArgumentArraysSameLength);
            }
            if (ieW.MoveNext())
            {
                throw new ArgumentOutOfRangeException("weights", Resources.ArgumentArraysSameLength);
            }
        }
        return covariance/Math.Sqrt(varA*varB);
    }

    /// <summary>計算皮爾遜積差相關矩陣</summary>
    /// <param name="vectors">資料矩陣</param>
    /// <returns>皮爾遜積差相關矩陣.</returns>
    public static Matrix<double> PearsonMatrix(params double[][] vectors)
    {
        var m = Matrix<double>.Build.DenseIdentity(vectors.Length);
        for (int i = 0; i < vectors.Length; i++)
        {
            for (int j = i + 1; j < vectors.Length; j++)
            {
                var c = Pearson(vectors[i], vectors[j]);
                m.At(i, j, c);
                m.At(j, i, c);
            }
        }

        return m;
    }

    /// <summary> 計算皮爾遜積差相關矩陣</summary>
    /// <param name="vectors">資料集合.</param>
    /// <returns>皮爾遜積差相關矩陣.</returns>
    public static Matrix<double> PearsonMatrix(IEnumerable<double[]> vectors)
    {
        return PearsonMatrix(vectors as double[][] ?? vectors.ToArray());
    }

    /// <summary>
    /// 斯皮爾曼等級相關係數
    /// </summary>
    /// <param name="dataA">資料集A.</param>
    /// <param name="dataB">資料集B.</param>
    /// <returns>斯皮爾曼等級相關係數.</returns>
    public static double Spearman(IEnumerable<double> dataA, IEnumerable<double> dataB)
    {
        return Pearson(Rank(dataA), Rank(dataB));
    }

    /// <summary>
    /// 斯皮爾曼等級相關矩陣
    /// Computes the Spearman Ranked Correlation matrix.
    /// </summary>
    /// <param name="vectors">資料集.</param>
    /// <returns>斯皮爾曼等級相關矩陣.</returns>
    public static Matrix<double> SpearmanMatrix(params double[][] vectors)
    {
        return PearsonMatrix(vectors.Select(Rank).ToArray());
    }

    /// <summary>計算斯皮爾曼等級相關矩陣</summary>
    /// <param name="vectors">資料集合.</param>
    /// <returns>斯皮爾曼等級相關矩陣.</returns>
    public static Matrix<double> SpearmanMatrix(IEnumerable<double[]> vectors)
    {
        return PearsonMatrix(vectors.Select(Rank).ToArray());
    }

    static double[] Rank(IEnumerable<double> series)
    {
        if (series == null)
        {
            return new double[0];
        }

        // WARNING: do not try to cast series to an array and use it directly,
        // as we need to sort it (inplace operation)

        var data = series.ToArray();
        return ArrayStatistics.RanksInplace(data, RankDefinition.Average);
    }
}

3.使用案例

　　使用非常簡單，看下面程式碼，隨便生成的一個資料，沒有啥意思，實際中，大家按需進行吧。　　

 1 //先生成資料集合data
 2 var chiSquare = new ChiSquared(5);
 3 Console.WriteLine(@"2. Generate 1000 samples of the ChiSquare(5) distribution");
 4 var data = new double[1000];
 5 for (var i = 0; i < data.Length; i++)
 6 {
 7     data[i] = chiSquare.Sample();
 8 }
 9 
10 //生成資料集合dataB
11 var chiSquareB = new ChiSquared(2);
12 var dataB = new double[1000];
13 for (var i = 0; i < data.Length; i++)
14 {
15     dataB[i] = chiSquareB.Sample();
16 }
17 
18 // 5. 計算data和dataB的相關係數
19 var r1 =  Correlation.Pearson(data, dataB);
20 var r2 = Correlation.Spearman(data, dataB);

4.資源

　　原始碼下載：http://www.cnblogs.com/asxinyu/p/4264638.html