PHP處理海量樣本相似度聚類演算法

Andrew.Hann發表於2016-08-05

catalogue

1. TF-IDF
2. 基於空間向量的餘弦演算法
3. 最長公共子序列
4. 最小編輯距離演算法
5. similar_text
6. local sensitive hash 區域性非敏感雜湊
7. SSDEEP Hash
8. K-means聚類演算法
9. 二分K-means演算法

1. TF-IDF

Relevant Link:

http://qianxunniao.iteye.com/blog/1831780

2. 基於空間向量的餘弦演算法

將分詞後的詞頻作為向量分量，將每個檔案轉化為一個向量，通過計算向量之間的餘弦值，本質上是在計算不同文字的詞頻的相似度

3. 最長公共子序列
該演算法的最大缺陷是計算CPU消耗較大

1. 將兩個字串分別以行和列組成矩陣
2. 計算每個節點行列字元是否相同，如相同則為1。
3. 通過找出值為1的最長對角線即可得到最長公共子串

為進一步提升該演算法，我們可以將字元相同節點的值加上左上角(d[i-1，j-1])的值，這樣即可獲得最大公共子串的長度。如此一來只需以行號和最大值為條件即可擷取最大子串

Relevant Link:

https://segmentfault.com/q/1010000000738974
http://www.speedphp.com/thread-4840-1-1.html
http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html

4. 最小編輯距離演算法

設A、B為兩個字串，狹義的編輯距離定義為把A轉換成B需要的最少刪除(刪除A中一個字元)、插入(在A中插入一個字元)和替換(把A中的某個字元替換成另一個字元)的次數，用ED(A，B)來表示。直觀來說，兩個串互相轉換需要經過的步驟越多，差異越大

1. 對兩部分文字進行處理，將所有的非文字字元替換為分段標記"#"
2. 較長文字作為基準文字，遍歷分段之後的短文字，發現長文字包含短文字子句後在長本文中移除，未發現匹配的字句累加長度
3. 比較剩餘文字長度與兩段文字長度和，其比值為不匹配比率

PHP中的levenshtein()函式已經實現了該功能

Relevant Link:

http://php.net/manual/zh/function.levenshtein.php

5. similar_text

Relevant Link:

http://php.net/manual/zh/function.metaphone.php
http://php.net/manual/zh/function.soundex.php
http://php.net/manual/zh/function.similar-text.php

6. local sensitive hash 區域性非敏感雜湊

在對海量樣本進行大規模相似度聚類運算的時候，需要首要考慮的問題是計算耗時。為此我們需要一種應對於海量資料場景的去重方案，可以採取一種叫做 local sensitive hash 區域性敏感雜湊的演算法，該演算法模型可以把文件降維到hash數字，數字兩兩計算運算量要小很多(google對於網頁去重使用的是simhash，他們每天需要處理的文件在億級別)。simhash是由 Charikar 在2002年提出來的，參考《Similarity estimation techniques from rounding algorithms》

0x1: 基本概念

1. 分詞
把需要判斷文字分詞形成這個文章的特徵單詞。最後形成去掉噪音詞的單詞序列併為每個詞加上權重，我們假設權重分為5個級別(1 ~ 5)。比如
"美國51區僱員稱內部有9架飛碟，曾看見灰色外星人" ==> 分詞後為 
"美國(4) 51區(5) 僱員(3) 稱(1) 內部(2) 有(1) 9架(3) 飛碟(5) 曾(1) 看見(3) 灰色(4) 外星人(5)": 括號裡是代表單詞在整個句子裡重要程度，數字越大越重要

2. hash
通過hash演算法把每個詞變成hash值，比如
"美國"通過hash演算法計算為 100101
"51區"通過hash演算法計算為 101011
這樣我們的字串就變成了一串串數字，下一步我們要把文章變為數字計算才能提高相似度計算效能，現在是降維過程進行時 

3. 加權
通過2步驟的hash生成結果，需要按照單詞的權重形成加權數字串，比如
"美國"的hash值為"100101"，通過加權計算為"4 -4 -4 4 -4 4"
"51區"的hash值為"101011"，通過加權計算為"5 -5 5 -5 5 5"

4. 合併
把上面各個單詞算出來的序列值累加，變成只有一個序列串。比如 
"美國"的"4 -4 -4 4 -4 4"
"51區"的"5 -5 5 -5 5 5"
把每一位進行累加，"4+5 -4+-5 -4+5 4+-5 -4+5 4+5" ==》 "9 -9 1 -1 1 9"(這裡作為示例只算了兩個單詞的，真實計算需要把所有單詞的序列串累加)

5. 降維
把4步算出來的"9 -9 1 -1 1 9"變成 0 1 串，形成我們最終的simhash簽名。 如果每一位大於0 記為 1，小於0 記為 0。最後算出結果為: "1 0 1 0 1 1"

整個過程圖為

simhash

Relevant Link:

http://blog.jobbole.com/46839/
http://jacoxu.com/?p=366
https://github.com/yanyiwu/simhash
https://github.com/leonsim/simhash
https://github.com/zhujun1980/simhash
https://github.com/Sin30/simhash-demo/blob/master/simhash.php
https://github.com/tgalopin/SimHashPhp
http://www.cs.princeton.edu/courses/archive/spr04/cos598B/bib/CharikarEstim.pdf

7. SSDEEP Hash

SSDEEP Hash的思想和MD5/SHAX正好相反，是一種區域性不敏感Hash演算法，通過對待檢測文字的分段切割，綜合加權得到一個降維的模糊化Hash。能夠對小範圍的修改有較好的容錯性

0x1: 改善SSDEEP Hash效果

1、 對不滿32byte的文字，填充Padding到32bytes

Relevant Link:

8. K-means聚類演算法

1. 使用K-means(K近鄰)演算法對文字進行分類，首先要面對的問題是，如何將文字轉化為可度量距離的"點特徵集合"，一個可行的方法是將文字提取為一個詞頻向量(高維空間的座標點)，這樣就將文字轉化為一個點
2. 二維座標點的X, Y 座標，其實是一種向量，是一種數學抽象。現實世界中很多屬性是可以抽象成向量的，比如，我們的年齡，我們的喜好，我們的商品，等等，能抽象成向量的目的就是可以讓計算機知道某兩個屬性間的距離。如：我們認為，18歲的人離24歲的人的距離要比離12歲的距離要近，鞋子這個商品離衣服這個商品的距離要比電腦要近，等等
3. 只要能把現實世界的物體的屬性抽象成向量，就可以用K-Means演算法來歸類了
4. 所以使用k-means進行樣本分類的難點在於如何提取feature，構成一個多維的座標點空間，並帶入模型運算

聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y，並將同類別y的樣本x放在一起。比如上面的星星，聚類後結果是一個個星團，星團裡面的點相互距離比較近，星團間的星星距離就比較遠了。

在聚類問題中，給我們的訓練樣本是，每個，沒有了y。

K-means演算法是將樣本聚類成k個簇（cluster），具體演算法描述如下

1、隨機選取k個聚類質心點（cluster centroids）為。

2、重複下面過程直到收斂 {

對於每一個樣例i，計算其應該屬於的類

對於每一個類j，重新計算該類的質心

}

K是我們事先給定的聚類數，代表樣例i與k個類中距離最近的那個類，的值是1到k中的一個。質心代表我們對屬於同一個類的樣本中心點的猜測，拿星團模型來解釋就是要將所有的星星聚成k個星團，首先隨機選取k個宇宙中的點（或者k個星星）作為k個星團的質心，然後第一步對於每一個星星計算其到k個質心中每一個的距離，然後選取距離最近的那個星團作為，這樣經過第一步每一個星星都有了所屬的星團；第二步對於每一個星團，重新計算它的質心（對裡面所有的星星座標求平均）。重複迭代(逐個遍歷所有點假設為質心)第一步和第二步直到質心不變或者變化很小(得到最優解)

下圖展示了對n個樣本點進行K-means聚類的效果，這裡k取2(二分)

clip_image015

K-means面對的第一個問題是如何保證收斂，最優解求解演算法中強調結束條件就是收斂，可以證明的是K-means完全可以保證收斂性。下面我們定性的描述一下收斂性，我們定義畸變函式（distortion function）如下：

clip_image016[6]

J函式表示每個樣本點到其質心的距離平方和。K-means是要將J調整到最小。假設當前J沒有達到最小值，那麼首先可以固定每個類的質心，調整每個樣例的所屬的類別來讓J函式減少，同樣，固定，調整每個類的質心也可以使J減小。這兩個過程就是內迴圈中使J單調遞減的過程。當J遞減到最小時，和c也同時收斂。（在理論上，可以有多組不同的和c值能夠使得J取得最小值，但這種現象實際上很少見）

由於畸變函式J是非凸函式，意味著我們不能保證取得的最小值是全域性最小值，也就是說k-means對質心初始位置的選取比較感冒，但一般情況下k-means達到的區域性最優已經滿足需求。但如果你怕陷入區域性最優，那麼可以選取不同的初始值跑多遍k-means，然後取其中最小的J對應的和c輸出。

Relevant Link:

http://coolshell.cn/articles/7779.html
http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

9. 二分K-means演算法

K-means演算法本身存在幾個缺陷

1. 可能收斂到區域性最小值
2. 在大規模資料集上收斂較慢

當陷入區域性最小值的時候，處理方法就是多執行幾次K-means演算法，然後選擇畸變函式J較小的作為最佳聚類結果。這樣的效率顯然太低，我們希望能得到一次就能給出接近最優的聚類結果
其實K-means的缺點的根本原因就是：對K個質心的初始選取比較敏感。質心選取得不好很有可能就會陷入區域性最小值
基於以上情況，有人提出了二分K-means演算法來解決這種情況，也就是弱化初始質心的選取對最終聚類效果的影響

Relevant Link:

http://blog.jobbole.com/86914/

02聚類演算法-相似度距離公式、維度災難
2018-12-08
聚類演算法公式
文字相似度 HanPL漢語言處理
2024-08-05
Python數模筆記-Sklearn（2）樣本聚類分析
2021-05-10
Python筆記聚類
海量資料處理
2018-03-08
不平衡樣本的處理
2018-09-27
聚類演算法
2020-04-26
聚類演算法
Jtti：怎樣正確處理Redis中的海量資料
2023-12-25
JttiRedis
海量資料處理2
2018-08-28
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
OpenCV計算機視覺學習（12）——影像量化處理&影像取樣處理（K-Means聚類量化，區域性馬賽克處理）
2020-11-27
OpenCV計算機視覺聚類
自然語言處理中句子相似度計算的幾種方法
2018-06-15
自然語言處理
影象相似度中的Hash演算法
2019-07-28
演算法
聚類演算法綜述
2018-12-09
聚類演算法
OPTICS聚類演算法原理
2020-05-14
聚類演算法
初探DBSCAN聚類演算法
2021-05-22
聚類演算法
海量資料的併發處理
2018-03-14
14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例
2018-12-16
聚類演算法
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
同義詞相似度可以怎樣計算
2018-06-28
elasticsearch演算法之詞項相似度演算法(二)
2022-01-24
Elasticsearch演算法
elasticsearch演算法之詞項相似度演算法(一)
2022-01-20
Elasticsearch演算法
可伸縮聚類演算法綜述（可伸縮聚類演算法開篇）
2018-10-30
聚類演算法
Spark中的聚類演算法
2020-09-27
Spark聚類演算法
深度聚類演算法敘談
2021-05-18
聚類演算法
深度聚類演算法淺談
2021-04-15
聚類演算法
N道大資料海量資訊處理演算法面試集錦
2018-09-04
大資料演算法面試
移動端影像相似度演算法選型
2018-10-24
演算法
深度學習煉丹-不平衡樣本的處理
2022-12-08
深度學習
10.鞏固學習PriorityQueue類------海量資料處理的 Top K演算法(問題) 小頂堆實現
2020-12-19
演算法
聚類演算法——DBSCAN演算法原理及公式
2020-05-20
聚類演算法公式
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
ctags 處理 PHP trait
2018-11-15
PHPAI
PHP 時間處理
2019-04-02
PHP
PHP 錯誤處理
2020-04-01
PHP
php錯誤處理
2021-09-09
PHP
elasticsearch演算法之推薦系統的相似度演算法(一)
2022-01-27
Elasticsearch演算法
字串相似度演算法完全指南：編輯、令牌與序列三類演算法的全面解析與深入分析
2024-07-04
字串演算法

PHP處理海量樣本相似度聚類演算法

相關文章