Python爬蟲批次下載電影連結
接下來很容易就解析出電影的ftp下載連結和磁力連結:
image
理論部分講解完成後,接下來的Python實現程式碼如下:
# -*- coding:utf-8 -*-import urllibimport urllib2import reimport requestsimport timeimport requestsimport requests_cache# User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64)# AppleWebKit/537.36 (KHTML, like Gecko)# Chrome/65.0.3325.181 Safari/537.36 OPR/52.0.2871.64requests_cache.install_cache('demo_cache')global fp url = ''# url = ''user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'headers = {'User-Agent': user_agent}try: r = requests.get(url) print type(r) print r.status_code print r.encoding html = requests.get(url, headers=headers).text html = html.encode(r.encoding) html = html.decode("gbk") content = html # print content fp = open(unicode("temp_pachong.txt", 'utf-8'), 'w') # 檔名不亂碼 fp.write(content.encode('utf-8')) fp.close() # <a href="/i/99901.html" class="ulink" title="2018年美國7.6分恐怖片《遺傳厄運》BD中英雙字">2018年美國7.6分恐怖片《遺傳厄運》BD中英雙字</a> pattern = re.compile('<b>.*?<a href="/i/(.*?).html" class="ulink" title="(.*?)">.*?</a>.*?</b>', re.S) items = re.findall(pattern, content) fp = open(unicode("電影天堂爬蟲.txt",'utf-8'),'w') # 檔名不亂碼 localtime=time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime(time.time())) count=0 fp.write("********************" + localtime +"********************".encode('utf-8') + 'n') print '本頁總資源數為:' + str(len(items)) for item in items: count=count+1 temp=str(count) + ": " + item[1] print temp fp.write(temp.encode('utf-8')+ 'n') temp='' + item[0] + '.html' print temp #獲取下載連結 url = temp r = requests.get(url) user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)' headers = {'User-Agent': user_agent} html = requests.get(url, headers=headers).text html = html.encode(r.encoding) html = html.decode("gbk") content = html # print content link_temp = re.compile('<td style=".*?"><a href="(.*?)">.*?</a></td>', re.S) link = re.findall(link_temp, content) print link[0] fp.write(link[0].encode('utf-8') + 'n') fp.write("********************" + localtime +"********************".encode('utf-8')) fp.close()except urllib2.URLError, e: if hasattr(e, "code"): print e.code if hasattr(e, "reason"): print e.reason fp.close()
實際效果如下:
view-source_https____i_99901.html.png
作者:看星星的天空
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/75/viewspace-2819228/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python爬蟲——批次爬取douyin影片,下載到本地Python爬蟲
- Python爬蟲:給我一個連結,虎牙影片隨便下載Python爬蟲
- python 爬取飄花電影 下載地址Python
- python爬蟲之解析連結Python爬蟲
- Python爬蟲-獲得某一連結下的所有超連結Python爬蟲
- python初級爬蟲之貓眼電影Python爬蟲
- Python電影爬蟲之身體每況愈下Python爬蟲
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Python爬蟲教程-17-ajax爬取例項(豆瓣電影)Python爬蟲
- python爬蟲 爬取豆瓣電影 1-10 ajax 資料Python爬蟲
- 如何用python爬蟲下載小說?Python爬蟲
- Python爬蟲例項:爬取貓眼電影——破解字型反爬Python爬蟲
- python 爬蟲之獲取標題和連結Python爬蟲
- 擼個爬蟲,爬取電影種子爬蟲
- 實用爬蟲-03-爬取視訊教程課程名+連結+下載圖片爬蟲
- python 爬蟲 下載百度美女圖片Python爬蟲
- 【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料!Python爬蟲
- Python爬蟲小結(轉)Python爬蟲
- VNC批次連線工具,VNC批次連線工具下載VNC
- Python網路爬蟲實踐案例:爬取貓眼電影Top100Python爬蟲
- 【Python爬蟲&資料分析】2018年電影,你看了幾部?Python爬蟲
- 【Python】從0開始寫爬蟲——轉身扒豆瓣電影Python爬蟲
- Python爬取電影天堂Python
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 第二彈!python爬蟲批量下載高清大圖Python爬蟲
- 使用Python爬蟲實現自動下載圖片Python爬蟲
- Python爬蟲全網搜尋並下載音樂Python爬蟲
- Python網路爬蟲(正則, 內涵段子,貓眼電影, 鏈家爬取)Python爬蟲
- python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單Python爬蟲CSS
- 中小學教材下載爬蟲爬蟲
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- Java爬蟲-爬取疫苗批次資訊Java爬蟲
- 爬蟲如何爬取貓眼電影TOP榜資料爬蟲
- 爬蟲01:爬取豆瓣電影TOP 250基本資訊爬蟲
- 撿了滑鼠開網咖系列——nodejs爬取電影連結NodeJS
- Python爬蟲教程-11-proxy代理IP,隱藏地址(貓眼電影)Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Golang框架beego電影網爬蟲小試牛刀Golang框架爬蟲