爬蟲專案常見問題及解決方案

simon4545發表於2016-09-21

最近在做一個採集國內的視訊網站內容的爬蟲專案，在開發的過程中遇到了一些典型問題，在這裡羅列下來和大家一起分享：

問題一：用什麼語言寫爬蟲最好？

關於這個問題，我無法給出正確的答案，我最終選擇的是Node.js.原因如下：
1.我們團隊對Java,Python,Node.JS都比較熟悉，但因為採集資料不少都是JSON介面，我們選擇了和JSON最融洽的Node.JS.

2.Node.JS不是天然的多執行緒或協程的解決方案，採集的效率不高？這裡我是這麼理解的，Node.JS是天生的非同步程式設計模型，我們的採集最大多數的時間還是用在網路上，在這段時間可以同時發起多個HTTP請求，並等待最終的結果，CPU利用率並不需要太高，所以這一點來看，Node.JS並沒有什麼劣勢。

3.Java,Python都有完善的爬蟲框架，為什麼不用？我們這個專案算是定向採集，非廣度優先，我們梳理完需求，發現我們最基礎的需求，只是能使用代理，能重試連線，能設定超時，能處理異常，而這些問題在Node.JS裡，requestretry這個庫都已能解決，所以我們並不需要一個大而全的框架，處理佇列，分散式等問題，選一個最熟悉的能用的才是最合適的

問題二：用什麼資料庫最好？

我們最終選擇的是MongoDB,但這不是最好的選擇

1.為什麼拋棄Mysql之類的關係型資料庫？
爬蟲的結果五花八門，但我們後期要對資料進行清洗，需要更為視覺化的資料結構，MongoDB之類的Document型資料庫會更加易用。同時，因為專案的需求後期可能會變更，我們會把原始資料儘可能完整的儲存起來，以供後面的需求，MongoDB強大的文件查詢能力，可以為後期的清洗省很多事

2.為什麼不用elasticsearch,Hadoop?

elasticsearch看起來是個不錯的選擇，它是一個具備很強內容檢索能力的搜尋方案，後期，我們可以很方便的為視訊的內容打標籤。但它對我們來說太重了一些，我們並沒有用到它的30%的功能

Hadoop也是這幾年很牛很火的大資料儲存和檢索的解決方案。同樣的，它依然太重了，對我們來說。

我們每天入庫700萬條記錄，這個其實壓根算不上大資料，殺雞何必用牛刀，而且elasticsearch,Hadoop如果不做叢集，就讓自已都產生內疚“這麼牛的東西，你只單機跑，丟人不”？所以我們只用了MongoDB,做主備就結束了，因為清洗完的資料，已被移走了。

3.MongoDB為什麼不是最好的選擇？

眾所周知，MongoDB是記憶體對映型的文件資料庫，一般意義上理解就是“吃記憶體”。我們採集來的原始資料，也會被對映到記憶體中，這是很浪費的，因為我們只需要當天夜裡清洗完之後就不再需要這些原始資料。而隨著採集的資料不斷增加，記憶體佔用會越來越高。我們正在計劃往LevelDB遷移。LevelDB是基本Google的BigTable發展出來的硬碟型資料庫，對於記憶體的利用會更高效一些，雖然它的查詢能力並不如MongoDB,但我們畢竟不是實時型的應用。

問題三：爬蟲代理

不少的平臺都有反爬蟲的方案，無非是限制帳號訪問次數或限制ip的訪問頻次，後者居多。

最開始的時候，我們選擇了網上的收費http代理,百度搜了一個叫全網代理IP的平臺，網址是http://www.goubanjia.com/，但實際使用中，可以說非常的垃圾。提供100個http代理，只有3，5個能用的，而且速度很慢，同時它們網站訪問慢如龜速，客服態度也不行，只要在群裡反饋就直接踢人。後來，換了一家叫快代理的，速度並沒有好多少。結論：“網上買http代理絕對不是爬蟲代理的好方案”。

最後我們找到了解決辦法：

現在許多雲主機服務商，都有彈性IP的功能，就是說，你可以申請N多個IP,一個月只需要基本使用費20多塊錢，在爬蟲過程中，用雲平臺的介面，換ip去採集，高速穩定。

爬蟲常見問題及解決方式
2022-06-10
爬蟲
WordPress：常見問題及解決方案
2024-03-10
Kafka常見的問題及解決方案
2023-05-08
Kafka
快取常見問題及解決方案
2019-10-08
快取
Python爬蟲程式設計常見問題解決方法
2018-09-07
Python爬蟲程式設計
專案經理如何有效管理專案進度？專案管理3大常見問題及解決方案
2022-01-07
專案管理
Android應用安全常見問題及解決方案
2018-11-23
Android
【FAQ】推送服務常見問題及解決方案
2023-01-17
物聯網路卡常見問題及解決方案
2022-05-16
CrashSight 接入上報常見問題及解決方案
2022-04-22
爬蟲常見錯誤程式碼及解決措施
2022-05-17
爬蟲
Git常見問題及解決
2019-03-06
Git
Nacos 常見問題及解決方法
2019-11-05
UltraEdit常見問題及解決教程
2021-09-07
SAP質量管理模組常見問題及解決方案
2019-12-04
【FAQ】整合分析服務的常見問題及解決方案
2023-02-23
網路爬蟲編寫常見問題
2020-07-30
爬蟲
python爬蟲常見的那點問題！
2021-07-05
Python爬蟲
Java™ 教程（常見問題及其解決方案）
2019-01-19
Java
h5移動端常見的問題及解決方案
2021-03-12
H5
新手linux系統常見問題解決方案
2020-07-08
Linux
常見網站反爬蟲的解決措施
2021-09-11
網站爬蟲
爬蟲中代理IP的常見方案
2021-09-11
爬蟲
網路爬蟲常見問題（個人總結）
2019-01-24
爬蟲
As常見問題解決方法
2018-08-24
git常見問題解決
2019-01-06
Git
Flutter 疑難雜症系列：鍵盤原理及常見問題解決方案
2021-08-26
Flutter
Hadoop常見錯誤及解決方案
2022-02-16
Hadoop
電信行業專案管理解決方案（常見挑戰&解決方案）
2022-06-14
行業專案管理
react 記憶體洩露常見問題解決方案
2019-04-03
React記憶體洩露
RecyclerView的使用總結以及常見問題解決方案
2018-12-21
View
移動端常見相容性問題解決方案
2018-08-10
SOLIDWORKS常見使用問題解決方案慧德敏學
2024-06-20
Solid
keepalived 1.3.5常見配置以及常見問題解決
2020-05-07
爬蟲使用海外HTTP代理時常見的錯誤程式碼及解決方法
2022-09-21
爬蟲HTTP
Windows 安裝 MySQL 5.7.20 教程（及常見問題解決）
2018-10-24
WindowsMySql
Flink生產環境常見問題及解決方法
2024-02-04
RabbitMQ訊息佇列入門及解決常見問題
2023-02-07
MQ佇列
央行徵信爬蟲解決方案
2019-04-16
爬蟲

爬蟲專案常見問題及解決方案

相關文章