最近寫了個Python爬蟲,記錄一下學到的東西
- urllib2 是針對文字的 urllib 是針對二進位制檔案的
- 下載檔案最簡單的寫法
urllib.urlretrieve(url, filePath + fileName)
- 如果需要訪問非英文頁面文字,自行 decode
html.decode('euc-jp').encode('utf-8')
- 使用 BeautifulSoup 處理 html 非常方便,但是在 Jython 下速度超級慢!
- 可以直接使用正則在 BeautifulSoup 中查詢需要的標籤
links = soup.findAll('a', href=re.compile('^.+?$')
- try except else 的應用
- 強制丟擲異常 raise
- 使用格式化文字實現數字補零
fileName = '%03d.jpg' %(time)
- 新建資料夾
if not os.path.isdir(filePath): os.mkdir(filePath)
- 字串和數字無法相加 需要講數字轉化為字串 str(num)
- cmp 可以用來比較兩個字串,完全相同返回 0
- # -*- coding: utf-8 -*- 非常重要,不光影響程式碼中的註釋,還會影響到處理文字。起初忘記加這個,導致日文無法正常處理。
相關文章
- 就想寫個爬蟲,我到底要學多少東西啊?爬蟲
- Python爬蟲需要學哪些東西?這些知識點必須掌握!Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了,動手破壞它!Python爬蟲
- 深度學習記錄(1)metricLogger是個什麼東西?深度學習
- 5 個用 Python 編寫 web 爬蟲的方法PythonWeb爬蟲
- 使用python的scrapy來編寫一個爬蟲Python爬蟲
- 一個Python爬蟲工程師學習養成記Python爬蟲工程師
- python爬蟲—學習筆記-4Python爬蟲筆記
- python爬蟲—學習筆記-2Python爬蟲筆記
- Python爬蟲學習筆記(三)Python爬蟲筆記
- python爬蟲學習筆記(二)Python爬蟲筆記
- 嗯!我自己寫(東拼西湊)了個"框架"框架
- 寫個爬蟲唄爬蟲
- 記錄一下自己找“python爬蟲工程師實習生”崗位的經歷Python爬蟲工程師
- 【爬蟲】python爬蟲從入門到放棄爬蟲Python
- 記錄:又學了一個 Laravel 新寫法Laravel
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- python爬蟲實戰:爬取西刺代理的代理ip(二)Python爬蟲
- 爬蟲學習日記(六)完成第一個爬蟲任務爬蟲
- 一入爬蟲深似海,總結python爬蟲學習筆記!爬蟲Python筆記
- Python爬蟲:手把手教你寫迷你爬蟲架構Python爬蟲架構
- python爬蟲是什麼?學習python爬蟲難嗎Python爬蟲
- python爬蟲日記01Python爬蟲
- python爬蟲是什麼?為什麼用python語言寫爬蟲?Python爬蟲
- Python為什麼叫爬蟲?Python為什麼適合寫爬蟲?Python爬蟲
- 記錄一些細碎的東西
- 把猿人學爬蟲課的著作權登記成功了爬蟲
- Python爬蟲爬取淘寶,京東商品資訊Python爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- 分享一下最近寫的一個小小部落格~~~
- 10個高效的Python爬蟲框架Python爬蟲框架
- [隨便寫寫] 開始寫一些東西了
- python爬蟲學習1Python爬蟲
- Python 開發簡單爬蟲 (學習筆記)Python爬蟲筆記
- Python爬蟲和java爬蟲哪個效率高Python爬蟲Java
- github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合GithubPython爬蟲
- 什麼是網路爬蟲?為什麼用Python寫爬蟲?爬蟲Python