爬蟲去重策略

青穗黃發表於2018-09-04
  1. 將訪問過的url儲存到資料庫中
  2. 將訪問過的url儲存到set中,只需要O(1)的代價就可以查詢url 100000000 * 2byte * 50個字元/1024/1024/1024=8G
  3. url經過md5等方法雜湊後儲存到set中 (scrapy使用此方法)
  4. 用bitmap方法,將訪問過的url通過hash函式對映到某一位
  5. bloomfilter方法對bitmao進行改進,多重hash函式降低衝突

參考: Python分散式爬蟲打造搜尋引擎

相關文章