python初學-爬取網頁資料
python初學-爬取網頁資料
1,獲取網頁原始碼
import urllib
url = 'http://www.163.com'
wp = urllib.urlopen(url)
file_content = wp.read()
print file_content
2,將網頁內容存入檔案中
fp = open('163.txt', 'wb') #開啟一個文字檔案
fp.write(file_content) #寫入資料
fp.close() #關閉檔案
3,利用正規表示式快速的列印出網頁的標題跟連結地址
import re
fp = open('163.txt', 'rb')
content = fp.read()
fp.close()
title = re.search('<title>(.*?)</title>', content, re.S).group(1)
print 'title = ', title + '\n'
hrefPatten = 'href="(.*?)"'
hrefC = re.findall(hrefPatten, content, re.S) #返回所有匹配正規表示式的值於列表中
print 'Allhref = ', hrefC
for h in hrefC :
print h
只是示例程式碼,演示爬取簡單內容的簡單過程,程式不完善,謝謝閱讀,有不明白的可以回覆討論。
相關文章
- Puppeteer爬取網頁資料網頁
- Python 爬取網頁資料的兩種方法Python網頁
- Python爬蟲初學二(網路資料採集)Python爬蟲
- python爬取58同城一頁資料Python
- 關於python爬取網頁Python網頁
- 爬取網頁後的抓取資料_3種抓取網頁資料方法網頁
- Python爬取噹噹網APP資料PythonAPP
- 使用 Python 爬取網站資料Python網站
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- 不會Python爬蟲?教你一個通用爬蟲思路輕鬆爬取網頁資料Python爬蟲網頁
- Python網路爬蟲第三彈《爬取get請求的頁面資料》Python爬蟲
- python爬取網頁詳細教程Python網頁
- 結合LangChain實現網頁資料爬取LangChain網頁
- Python爬蟲入門【3】:美空網資料爬取Python爬蟲
- 如何用Python爬資料?(一)網頁抓取Python網頁
- 「無程式碼」高效的爬取網頁資料神器網頁
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 如何使用python進行網頁爬取?Python網頁
- 爬取網頁文章網頁
- 爬取多個頁面的資料
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- 一起學爬蟲——使用Beautiful Soup爬取網頁爬蟲網頁
- Python爬取網頁的所有內外鏈Python網頁
- 網頁用python爬取後如何解析網頁Python
- 手機版python爬取網頁書籍Python網頁
- python網路爬蟲(7)爬取靜態資料詳解Python爬蟲
- Python爬蟲訓練:爬取酷燃網視訊資料Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Python:爬取疫情每日資料Python
- node:爬蟲爬取網頁圖片爬蟲網頁
- python 爬蟲如何爬取動態生成的網頁內容Python爬蟲網頁
- 用Jupyter—Notebook爬取網頁資料例項14網頁
- 用Jupyter—Notebook爬取網頁資料例項12網頁
- zf_利用feapder中的selenium網頁爬取資料網頁
- 利用Python爬蟲爬取天氣資料Python爬蟲
- Python筆記:網頁資訊爬取簡介(一)Python筆記網頁
- Python應用開發——爬取網頁圖片Python網頁
- Python 爬取網站資原始檔Python網站