最近寫了個Python爬蟲,記錄一下學到的東西
- urllib2 是針對文字的 urllib 是針對二進位制檔案的
- 下載檔案最簡單的寫法
urllib.urlretrieve(url, filePath + fileName)
- 如果需要訪問非英文頁面文字,自行 decode
html.decode('euc-jp').encode('utf-8')
- 使用 BeautifulSoup 處理 html 非常方便,但是在 Jython 下速度超級慢!
- 可以直接使用正則在 BeautifulSoup 中查詢需要的標籤
links = soup.findAll('a', href=re.compile('^.+?$')
- try except else 的應用
- 強制丟擲異常 raise
- 使用格式化文字實現數字補零
fileName = '%03d.jpg' %(time)
- 新建資料夾
if not os.path.isdir(filePath): os.mkdir(filePath)
- 字串和數字無法相加 需要講數字轉化為字串 str(num)
- cmp 可以用來比較兩個字串,完全相同返回 0
- # -*- coding: utf-8 -*- 非常重要,不光影響程式碼中的註釋,還會影響到處理文字。起初忘記加這個,導致日文無法正常處理。
相關文章
- 就想寫個爬蟲,我到底要學多少東西啊?爬蟲
- 就最近學習MVC4.0的頁面用法學到的東西MVC
- Python爬蟲需要學哪些東西?這些知識點必須掌握!Python爬蟲
- 嗯!我自己寫(東拼西湊)了個"框架"框架
- 最近要寫爬蟲,大家有推薦 Golang 的爬蟲框架嗎?爬蟲Golang框架
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 深度學習記錄(1)metricLogger是個什麼東西?深度學習
- 《用Python寫網路爬蟲》--編寫第一個網路爬蟲Python爬蟲
- Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了,動手破壞它!Python爬蟲
- 寫個爬蟲唄爬蟲
- 最近在看Oracle10g OCA,OCP教程,沒學到的東西還真不少Oracle
- Python爬蟲學習筆記(三)Python爬蟲筆記
- python爬蟲學習筆記(二)Python爬蟲筆記
- python爬蟲—學習筆記-4Python爬蟲筆記
- python爬蟲—學習筆記-2Python爬蟲筆記
- 使用python的scrapy來編寫一個爬蟲Python爬蟲
- 5 個用 Python 編寫 web 爬蟲的方法PythonWeb爬蟲
- 用Python寫一個簡單的微博爬蟲Python爬蟲
- python爬蟲學習記錄之報錯及解決方案Python爬蟲
- 記錄一下自己找“python爬蟲工程師實習生”崗位的經歷Python爬蟲工程師
- python爬蟲實戰:爬取西刺代理的代理ip(二)Python爬蟲
- 記錄:又學了一個 Laravel 新寫法Laravel
- 【爬蟲】python爬蟲從入門到放棄爬蟲Python
- 爬蟲學習日記(六)完成第一個爬蟲任務爬蟲
- 一個Python爬蟲工程師學習養成記Python爬蟲工程師
- Python scrapy爬蟲學習筆記01Python爬蟲筆記
- 把猿人學爬蟲課的著作權登記成功了爬蟲
- 一入爬蟲深似海,總結python爬蟲學習筆記!爬蟲Python筆記
- 基於node的微小爬蟲——扒了一下知乎爬蟲
- Vue3預設版本了!我準備學這五個東西了。Vue
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 學渣講爬蟲之Python爬蟲從入門到出門(第三講)爬蟲Python
- 想去培訓學校學JAVA,能學到東西嗎??Java
- Python爬蟲:手把手教你寫迷你爬蟲架構Python爬蟲架構
- 東西學了容易忘?學會跟蹤你的知識
- 參加Python培訓機構真的可以學習到東西嗎?Python
- python爬蟲是什麼?學習python爬蟲難嗎Python爬蟲
- 從給我的第一個客戶做開發中學到的東西