海量資料相似度計算之simhash和海明距離

lanceyan發表於2013-08-28

通過 採集系統 我們採集了大量文字資料,但是文字中有很多重複資料影響我們對於結果的分析。分析前我們需要對這些資料去除重複,如何選擇和設計文字的去重演算法?常見的有餘弦夾角演算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些演算法對於待比較的文字資料不多時還比較好用,如果我們的爬蟲每天採集的資料以千萬計算,我們如何對於這些海量千萬級的資料進行高效的合併去重。最簡單的做法是拿著待比較的文字和資料庫中所有的文字比較一遍如果是重複的資料就標示為重複。看起來很簡單,我們來做個測試,就拿最簡單的兩個資料使用Apache提供的 Levenshtein for 迴圈100w次計算這兩個資料的相似度。程式碼結果如下:

耗費時間: 4266 ms

大跌眼鏡,居然計算耗費4秒。假設我們一天需要比較100w次,光是比較100w次的資料是否重複就需要4s,就算4s一個文件,單執行緒一分鐘才處理15個文件,一個小時才900個,一天也才21600個文件,這個數字和一天100w相差甚遠,需要多少機器和資源才能解決。

為此我們需要一種應對於海量資料場景的去重方案,經過研究發現有種叫 local sensitive hash 區域性敏感雜湊 的東西,據說這玩意可以把文件降維到hash數字,數字兩兩計算運算量要小很多。查詢很多文件後看到google對於網頁去重使用的是simhash,他們每天需要處理的文件在億級別,大大超過了我們現在文件的水平。既然老大哥也有類似的應用,我們也趕緊嘗試下。simhash是由 Charikar 在2002年提出來的,參考 《Similarity estimation techniques from rounding algorithms》 。 介紹下這個演算法主要原理,為了便於理解儘量不使用數學公式,分為這幾步:

  • 1、分詞,把需要判斷文字分詞形成這個文章的特徵單詞。最後形成去掉噪音詞的單詞序列併為每個詞加上權重,我們假設權重分為5個級別(1~5)。比如:“ 美國“51區”僱員稱內部有9架飛碟,曾看見灰色外星人 ” ==> 分詞後為 “ 美國(4) 51區(5) 僱員(3) 稱(1) 內部(2) 有(1) 9架(3) 飛碟(5) 曾(1) 看見(3) 灰色(4) 外星人(5)”,括號裡是代表單詞在整個句子裡重要程度,數字越大越重要。
  • 2、hash,通過hash演算法把每個詞變成hash值,比如“美國”通過hash演算法計算為 100101,“51區”通過hash演算法計算為 101011。這樣我們的字串就變成了一串串數字,還記得文章開頭說過的嗎,要把文章變為數字計算才能提高相似度計算效能,現在是降維過程進行時。
  • 3、加權,通過 2步驟的hash生成結果,需要按照單詞的權重形成加權數字串,比如“美國”的hash值為“100101”,通過加權計算為“4 -4 -4 4 -4 4”;“51區”的hash值為“101011”,通過加權計算為 “ 5 -5 5 -5 5 5”。
  • 4、合併,把上面各個單詞算出來的序列值累加,變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”,“51區”的 “ 5 -5 5 -5 5 5”, 把每一位進行累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這裡作為示例只算了兩個單詞的,真實計算需要把所有單詞的序列串累加。
  • 5、降維,把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串,形成我們最終的simhash簽名。 如果每一位大於0 記為 1,小於0 記為 0。最後算出結果為:“1 0 1 0 1 1”。

整個過程圖為:

simhash

大家可能會有疑問,經過這麼多步驟搞這麼麻煩,不就是為了得到個 0 1 字串嗎?我直接把這個文字作為字串輸入,用hash函式生成 0 1 值更簡單。其實不是這樣的,傳統hash函式解決的是生成唯一值,比如 md5、hashmap等。md5是用於生成唯一簽名串,只要稍微多加一個字元md5的兩個數字看起來相差甚遠;hashmap也是用於鍵值對查詢,便於快速插入和查詢的資料結構。不過我們主要解決的是文字相似度計算,要比較的是兩個文章是否相識,當然我們降維生成了hashcode也是用於這個目的。看到這裡估計大家就明白了,我們使用的simhash就算把文章中的字串變成 01 串也還是可以用於計算相似度的,而傳統的hashcode卻不行。我們可以來做個測試,兩個相差只有一個字元的文字串,“你媽媽喊你回家吃飯哦,回家羅回家羅” 和 “你媽媽叫你回家吃飯啦,回家羅回家羅”。

通過simhash計算結果為:

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通過 hashcode計算為:

1111111111111111111111111111111110001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出來,相似的文字只有部分 01 串變化了,而普通的hashcode卻不能做到,這個就是區域性敏感雜湊的魅力。目前Broder提出的shingling演算法和Charikar的simhash演算法應該算是業界公認比較好的演算法。在simhash的發明人Charikar的論文中並沒有給出具體的simhash演算法和證明,“量子圖靈”得出的證明simhash是由隨機超平面hash演算法演變而來的

現在通過這樣的轉換,我們把庫裡的文字都轉換為simhash 程式碼,並轉換為long型別儲存,空間大大減少。現在我們雖然解決了空間,但是如何計算兩個simhash的相似度呢?難道是比較兩個simhash的01有多少個不同嗎?對的,其實也就是這樣,我們通過海明距離(Hamming distance)就可以計算出兩個simhash到底相似不相似。兩個simhash對應二進位制(01串)取值不同的數量稱為這兩個simhash的海明距離。舉例如下: 10101 和 00110 從第一位開始依次有第一位、第四、第五位不同,則海明距離為3。對於二進位制字串的a和b,海明距離為等於在a XOR b運算結果中1的個數(普遍演算法)。

為了高效比較,我們預先載入了庫裡存在文字並轉換為simhash code 儲存在記憶體空間。來一條文字先轉換為 simhash code,然後和記憶體裡的simhash code 進行比較,測試100w次計算在100ms。速度大大提升。

未完待續:

1、目前速度提升了但是資料是不斷增量的,如果未來資料發展到一個小時100w,按現在一次100ms,一個執行緒處理一秒鐘 10次,一分鐘 60 * 10 次,一個小時 60*10 *60 次 = 36000次,一天 60*10*60*24 = 864000次。 我們目標是一天100w次,通過增加兩個執行緒就可以完成。但是如果要一個小時100w次呢?則需要增加30個執行緒和相應的硬體資源保證速度能夠達到,這樣成本也上去了。能否有更好的辦法,提高我們比較的效率?

2、通過大量測試,simhash用於比較大文字,比如500字以上效果都還蠻好,距離小於3的基本都是相似,誤判率也比較低。但是如果我們處理的是微博資訊,最多也就140個字,使用simhash的效果並不那麼理想。看如下圖,在距離為3時是一個比較折中的點,在距離為10時效果已經很差了,不過我們測試短文字很多看起來相似的距離確實為10。如果使用距離為3,短文字大量重複資訊不會被過濾,如果使用距離為10,長文字的錯誤率也非常高,如何解決?

simhash2

相關文章