最近寫了個Python爬蟲,記錄一下學到的東西

poplarbbs發表於2010-02-22
  1. urllib2 是針對文字的 urllib 是針對二進位制檔案的
  2. 下載檔案最簡單的寫法
    urllib.urlretrieve(url, filePath + fileName)
  3. 如果需要訪問非英文頁面文字,自行 decode
    html.decode('euc-jp').encode('utf-8')
  4. 使用 BeautifulSoup 處理 html 非常方便,但是在 Jython 下速度超級慢!
  5. 可以直接使用正則在 BeautifulSoup 中查詢需要的標籤
    links = soup.findAll('a', href=re.compile('^.+?$') 
  6. try except else 的應用
  7. 強制丟擲異常 raise
  8. 使用格式化文字實現數字補零
    fileName = '%03d.jpg' %(time)
  9. 新建資料夾
    if not os.path.isdir(filePath):
                os.mkdir(filePath)
  10. 字串和數字無法相加 需要講數字轉化為字串 str(num)
  11. cmp 可以用來比較兩個字串,完全相同返回 0
  12. # -*- coding: utf-8 -*- 非常重要,不光影響程式碼中的註釋,還會影響到處理文字。起初忘記加這個,導致日文無法正常處理。

相關文章