【彙總】Python爬蟲常見面試題!

老男孩IT教育機構發表於2021-06-04

  眾所周知,爬蟲是Python重要的應用方向之一,也是學習Python求職的熱門崗位。對此,為幫助學員們快速透過面試,小編整理了一些Python爬蟲常見面試題,希望能夠幫助到你們。

  1. 試列出至少三種目前流行流行的大型資料庫;

  2. 列舉您使用過的Python網路爬蟲所用到的網路資料包;

  3. 爬取資料後使用哪個資料庫儲存資料,為什麼?

  4. 你用過的爬蟲框架或者模組有哪些?優缺點?

  5. 寫爬蟲是用多程式好?還是多執行緒好?

  6. 常見的反爬蟲和應對方法?

  7. 解析網頁的解析器使用最多的是那幾個?

  8. 需要登入的網頁,如何解決同時限制ip,cookie,session?

  9. 驗證碼的解決?

  10. 使用最多的資料庫,對他們的理解?

  11. 編寫過哪些爬蟲中介軟體?

  12. 極驗滑動驗證碼如何破解?

  13. 爬蟲多久爬一次?爬下來的資料怎麼儲存?

  14. Cookie過期的處理問題?

  15. 動態載入又對及時性要求很高怎麼處理?

  16. HTTPS有什麼優點和缺點?

  17. HTTPS是如何實現安全傳輸資料的?

  18. 談一談你對Selenium和PhantomJS瞭解?

  19. 平常怎麼使用程式碼的?

  20. 存放在資料庫?

  21. 怎麼監控爬蟲的狀態?

  22. 描述下Scrapy框架執行的機制?

  23. 談談你對Scrapy的理解?

  24. 怎麼樣讓Scrapy框架傳送一個post請求?

  25. 怎麼判斷網站是否更新?

  26. 圖片、影片抓取怎麼繞過防盜連線?

  27. 你爬出來的資料量大量有多大?大概多長時間爬一次?

  28. 用什麼資料庫存爬下來的資料?部署是你做的嗎?如何部署?

  29. 增量爬取

  30. 爬取下來的資料如何去重,說一下scrapy的具體的演算法依據。

  31. Scrapy的優缺點?

  32. 怎麼設定爬取深度?

  33. scrapy和scrapy-redis有什麼區別?為什麼選擇redis資料庫?

  34. 分散式爬蟲主要解決什麼問題?

  35. 什麼是分散式儲存?

  36. 你所知道的分散式爬蟲方案有哪些?

  37. scrapy-redis,有做過其他的分散式爬蟲嗎?


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2775489/,如需轉載,請註明出處,否則將追究法律責任。

相關文章