GitHub上有哪些優秀的爬蟲專案?

kuls就是我發表於2019-04-18

640

1

寫在前面的話           

今天JAP君給大家安利一波福利!GitHub上優秀的爬蟲專案大集合!!!大家趕快收藏一波!

2

福利開始嘍!

1. Anti-Anti-Spider

地址:https://github.com/luyishisi/Anti-Anti-Spider

640?wx_fmt=jpeg

很全面的反爬蟲專案大全:

1:驗證碼 {亞馬遜驗證碼破解,knn,svm,Tensorflow自動生成驗證碼並大量訓練從而破解--98%成功率}

2:代理 {抓取西刺代理,以及一個高可用的國外代理網站,並存入資料庫,從而隨時呼叫}

3:程式碼模板 {多執行緒優化,百度地圖視覺化採集,聚焦爬蟲,selenium模擬登陸,域名爬蟲}

5:爬蟲專案原始碼 {優酷網,騰訊視訊,推特,拉鉤網,百度地圖,妹子圖網,百家號,百度百科,csdn,新浪微博, 淘寶採集}

6:ip更換技術 {代理,tor,adsl}

7:請求偽造 {phantomjs,requests,selenium}

8:phantomjs {偽造請求頭,獲取頁面截圖,獲取頁面原始碼,設定超時}

9:selenium {偽造請求頭,支付寶模擬登陸}

10:UrlSpider {專案中常用的採集程式碼樣本,經過多執行緒資料庫操作優化,最高速度6kw/d}

2. awesome-spider


網址:https://github.com/facert/awesome-spider

640?wx_fmt=jpeg

這是一個id為facert的知乎工程師開源的專案,目前見過最詳細最多的爬蟲案例大全了,真的值得大家去學習一波!

3. Nyspider

網址:https://github.com/Nyloner/Nyspider

640?wx_fmt=jpeg

這是ID為Nyloner的一個今日頭條的工程師弄的,star1000+,風格與上面的專案大有不同。

可以看出,都是各類網址,和本人的工作有關。

4. awesome-python-login-model

網址://github.com/CriseLYJ/awesome-python-login-model

640?wx_fmt=jpeg

這是ID為CriseLYJ(職業不詳)的使用者,這個專案用於模擬各種網址登陸,也包含一些簡單的爬蟲,star6000+。


5. python-spider

網址:https://github.com/Jack-Cherish/python-spider

640?wx_fmt=jpeg

這是ID為Jack-Cherish的東北大學的一個學生整理的學習python爬蟲的資料,star6000+,包含不少的實戰專案,非常適合想學習的朋友。

6. Google,Baidu,Bing三大搜素引擎圖片爬蟲

網址:https://github.com/sczhengyabin/Image-Downloader


640?wx_fmt=jpeg

這個爬蟲足夠滿足小型專案初始資料集的積累,結果命名也非常整齊規範,最大的優點是穩定。

3

END        

      想要更快的提升自己的爬蟲技術,單單把基本的知識學完是遠遠不夠的,而是要多去實戰,這些案例非常的優秀,大家都可以按照他們的寫法去寫一遍,這樣更有利於大家爬蟲技術的提升!

       如果你覺得這篇文章對你有所幫助,可以點選右下角的“在看”或者你也可以給JAP君加個小雞腿!JAVAandPython君---一個堅持原創技術文章輸出的公眾號

640?wx_fmt=gif

相關文章