最近寫了個Python爬蟲，記錄一下學到的東西

poplarbbs發表於2010-02-22

原文網址 : https://blog.csdn.net/poplarbbs/article/details/83557527

urllib2 是針對文字的 urllib 是針對二進位制檔案的

下載檔案最簡單的寫法

urllib.urlretrieve(url, filePath + fileName)

如果需要訪問非英文頁面文字，自行 decode
```
html.decode('euc-jp').encode('utf-8')
```
使用 BeautifulSoup 處理 html 非常方便，但是在 Jython 下速度超級慢！
可以直接使用正則在 BeautifulSoup 中查詢需要的標籤
```
links = soup.findAll('a', href=re.compile('^.+?$') 
```
try except else 的應用
強制丟擲異常 raise
使用格式化文字實現數字補零
```
fileName = '%03d.jpg' %(time)
```

新建資料夾

if not os.path.isdir(filePath):
            os.mkdir(filePath)

字串和數字無法相加需要講數字轉化為字串 str(num)
cmp 可以用來比較兩個字串，完全相同返回 0
# -*- coding: utf-8 -*- 非常重要，不光影響程式碼中的註釋，還會影響到處理文字。起初忘記加這個，導致日文無法正常處理。

就想寫個爬蟲，我到底要學多少東西啊？
2022-12-06
爬蟲
Python爬蟲需要學哪些東西？這些知識點必須掌握！
2021-05-25
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了，動手破壞它！
2019-04-22
Python爬蟲
深度學習記錄（1）metricLogger是個什麼東西？
2020-11-08
深度學習
5 個用 Python 編寫 web 爬蟲的方法
2018-05-20
PythonWeb爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
一個Python爬蟲工程師學習養成記
2020-06-29
Python爬蟲工程師
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
嗯！我自己寫（東拼西湊）了個"框架"
2019-02-14
框架
寫個爬蟲唄
2019-02-25
爬蟲
記錄一下自己找“python爬蟲工程師實習生”崗位的經歷
2018-12-19
Python爬蟲工程師
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
記錄：又學了一個 Laravel 新寫法
2018-10-07
Laravel
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
python爬蟲實戰：爬取西刺代理的代理ip（二）
2019-02-16
Python爬蟲
爬蟲學習日記（六）完成第一個爬蟲任務
2019-01-10
爬蟲
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
Python爬蟲：手把手教你寫迷你爬蟲架構
2020-07-10
Python爬蟲架構
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
python爬蟲日記01
2021-05-11
Python爬蟲
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
Python為什麼叫爬蟲?Python為什麼適合寫爬蟲?
2021-02-02
Python爬蟲
記錄一些細碎的東西
2019-12-30
把猿人學爬蟲課的著作權登記成功了
2020-07-08
爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
分享一下最近寫的一個小小部落格～～～
2021-04-27
10個高效的Python爬蟲框架
2024-09-27
Python爬蟲框架
[隨便寫寫] 開始寫一些東西了
2020-11-10
python爬蟲學習1
2020-11-29
Python爬蟲
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合
2022-02-18
GithubPython爬蟲
什麼是網路爬蟲?為什麼用Python寫爬蟲?
2021-03-08
爬蟲Python

最近寫了個Python爬蟲，記錄一下學到的東西

相關文章