【個人記錄】零基礎python爬蟲練習——七行程式碼爬取豆瓣一週口碑榜

馬也BenJok發表於2019-04-01

原文網址 : https://blog.csdn.net/weixin_44157564/article/details/88941649

本文用於記錄我自己的第一次python爬蟲練習，用七行程式碼來爬取豆瓣一週口碑榜。在這個練習中，我主要使用了python的requests庫和lmxl庫。兩者都是較容易上手的python網頁爬蟲第三方庫。由於我是真的零基礎，只知道一些python的基本語法，所以即使在有程式碼參考的情況下也遇到了一些問題，我通過這篇文章來對上次的經歷進行回顧。

起因

最近在進行python的學習，已經寫了一些例如陣列排序，猜數字小遊戲的小型程式，不過我一直沒有接觸過爬蟲（因為比較拖延，在廖雪峰的python教程上還沒有學到爬蟲的部分）。這次開始我的練習是因為在微信上看見了一篇文章，講七行程式碼爬取豆瓣一週口碑榜，看完心想：“這很容易嘛，那就拿他作為我的第一個爬蟲專案了”，於是我就開啟idle，建立一個新的py檔案，開始跟著教程走。

經過

整個爬蟲的開發過程分為編碼，解決問題和增加功能三部分。一開始以為只會花一點點時間（就和以為寫這篇文章只會花一點點時間一樣），當然事實證明，剛開始玩兒爬蟲，還是沒那麼輕鬆的，總會遇到些問題。不過，解決問題的過程也是很快樂的。

問題解決

既然問題找到了，那麼解決起來就容易了，接下來就是面向搜尋引擎程式設計了（滑稽）。查到requests和lxml的安裝指令，以此在windows控制檯輸入：

pip install requests
pip install lxml

安裝完成後再次執行，emmmm，又報錯。根據錯誤資訊（缺失某個包），我瞭解到requests包的安裝比較複雜，因為它的配置依賴了urllib3，chardet，certifi等包，因此我要想成功引用requests包，還需要安裝其依賴包。我自己只遇到兩個缺失的包，一個是urllib3，一個是chardet。因此最終通過在命令列輸入兩個安裝指令解決問題。

pip install urllib3
pip install chardet

安裝完成，重跑程式碼，得到了想要的結果，IDLE中以List的方式列印出了豆瓣一週的口碑榜，如圖所示。
執行結果

程式功能增加

教程部分走完了，不過感覺這樣還不夠。我想再練習一下python的檔案操作，因此我新增了以下幾行程式碼，來實現將口碑榜的內容寫入一個名為result.txt的文字檔案中。

resFile = open("result.txt", 'w')
resFile.write(str(result))
resFile.close()

再次執行程式碼後，py檔案所在目錄出現了一個名為result.txt的檔案，其內容和IDLE中列印的內容相同。
生成result.txt檔案檔案內容

總結

以此，我的第一個python爬蟲練習就完成了，相對來說是比較簡單的，不過能實現一個小玩爬蟲，還是有一點謎之成就感，夠我驕傲三秒鐘了。

我在以上的程式碼中引入了requests、lxml庫，分別實現訪問網頁、對網頁結構解析。對於這兩個庫我還不太熟悉，以後估計會更多地用到，實在記不住，那就要用的時候查吧。此外，我知道python有很多開源的庫，直接呼叫這些庫，一是避免了重複造輪子，增加工作量，二是大大降低了學習的門檻（當然以後技術更好一點，還是得學習如何造輪子的）。

接下來，我應該會有越來越多的小練習，不僅僅侷限於python爬蟲。我想以後也會遇到各種各樣的小問題，不過有網上各位前輩的經驗和教程，沒什麼可畏懼的。

Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊
2018-07-23
Python爬蟲
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
Python 爬蟲零基礎教程(1)：爬單個圖片
2024-03-13
Python爬蟲
爬蟲練習——爬取縱橫中文網
2020-10-19
爬蟲
python爬蟲練習--爬取虎牙主播原畫視訊
2020-11-28
Python爬蟲
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
爬蟲豆瓣美女
2018-11-28
爬蟲
06、豆瓣爬蟲
2019-04-11
爬蟲
python爬蟲-1w+套個人簡歷模板爬取
2021-03-05
Python爬蟲
Python爬蟲專案100例，附原始碼！100個Python爬蟲練手例項
2021-09-09
Python爬蟲原始碼
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
python——豆瓣top250爬取
2021-01-02
Python
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
一個Python爬蟲工程師學習養成記
2020-06-29
Python爬蟲工程師
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
零基礎如何學習好python爬蟲？分哪幾個階段？
2019-06-26
Python爬蟲
爬蟲練習--草稿
2018-04-27
爬蟲
爬蟲學習日記（六）完成第一個爬蟲任務
2019-01-10
爬蟲
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
如何爬取視訊的爬蟲程式碼原始碼
2020-12-26
爬蟲原始碼
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
Python零基礎爬蟲教學（實戰案例手把手Python爬蟲教學）
2020-04-17
Python爬蟲
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲
2019-01-02
Python爬蟲
python爬蟲學習01--電子書爬取
2020-07-13
Python爬蟲
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
好程式設計師Python培訓分享零基礎Python爬蟲學習線路
2020-06-22
程式設計師Python爬蟲
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲

【個人記錄】零基礎python爬蟲練習——七行程式碼爬取豆瓣一週口碑榜

起因

經過

相關程式碼

問題解決

程式功能增加

總結

相關文章