2.python爬蟲基礎——Urllib庫

wsc449發表於2018-02-07
#python中Urllib庫實戰
#系統學習urllib模組,從urllib基礎開始。學習urlretrieve(),urlcleanup(),info(),getcode(),geturl()
import urllib.request
#urlretrieve() 直接將一個網頁爬到本地
urllib.request.urlretrieve("http://www.hellobi.com",filename="/Users/xubin/myapp/pythonfile/urlretrieve.html")

#urlcleanup() 將urlretrieve產生的快取,清空
urllib.request.urlcleanup()

#info()  將一些基礎的環境資訊展示粗來
file=urllib.request.urlopen("http://www.hellobi.com")
print(file.info())

#getcode() 獲取訪問url的狀態碼,返貨200,
print(file.getcode())

#geturl()  獲取爬取得網址
print(file.geturl())

#超時設定
#爬取一個網頁,需要時間。訪問網頁,網頁長時間未響應,系統判斷網頁超時了,無法開啟網頁。
#伺服器反應快設定2秒沒反應未超時,如果伺服器反應慢設定100秒沒反應未超時,timeout超時時間為2 100
file=urllib.request.urlopen("http://www.hellobi.com",timeout=1)

for i in range(0,10):
    try:
        file=urllib.request.urlopen("http://yum.iqianyue.com",timeout=0.1)
        data=file.read()
        print(len(data))
    except Exception as e:
        print("出現異常:"+str(e))

#自動模擬http請求
#客戶端如果要與伺服器端進行通訊,需要通過http請求進行,http請求有很多種
#主要涉及post,get兩種方式,比如登入,搜尋某些資訊的時候會用到
#一般登入某個網站的時候,需要post請求
#一般搜尋某些資訊的時候,需要get請求

#在百度上搜尋關鍵詞,用python實現,需要用到請求,get  get請求URL中有?
#https://www.baidu.com/s?wd=python
import urllib.request
import re
keywd="徐彬"
keywd=urllib.request.quote(keywd)
url="http://www.baidu.com/s?wd="+keywd    #注意不能用https
req=urllib.request.Request(url)
data=urllib.request.urlopen(req).read()
fh=open("/Users/xubin/myapp/pythonfile/百度python.html","wb")
fh.write(data)
fh.close()

#post請求  比如需要登入使用者  需要提交post請求
#http://passport.csdn.net/account/login    使用者名稱:username  密碼:password
import urllib.request
import urllib.parse
url="https://passport.csdn.net/account/login"
mydata=urllib.parse.urlencode({"username":"bingoxubin","password":"19900127LLBingo"}).encode("utf-8")
req=urllib.request.Request(url,mydata)
data=urllib.request.urlopen(req).read()
fh=open("/Users/xubin/myapp/pythonfile/csdn登入介面.html","wb")
fh.write(data)
fh.close()


```
#爬取oa上的所有照片,存到OA照片.docx中  #遇到問題,目前所學,只能爬取單頁的內容
import re
import urllib.request

data=urllib.request.urlopen("oa.epoint.com.cn").read()
data=data.decode("utf-8")
pat=""
mydata=re.compile(pat).findall(data)
fh=open("/Users/xubin/myapp/pythonfile/OA照片.docx","w")
for i in range(0,len(mydata)):
    fh.write(mydata[i]+"
")
fh.close()
```


相關文章