爬蟲練習--草稿
簡書的robots
# See http://www.robotstxt.org/wc/norobots.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
User-agent: *
Disallow: /search
Disallow: /convos/
Disallow: /notes/
Disallow: /admin/
Disallow: /adm/
Disallow: /p/0826cf4692f9
Disallow: /p/d8b31d20a867
Disallow: /collections/*/recommended_authors
Disallow: /trial/*
Disallow: /keyword_notes
Disallow: /stats-2017/*
User-agent: trendkite-akashic-crawler
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 60
User-agent: YisouSpider
Request-rate: 1/10 # load 1 page per 2 seconds
Crawl-delay: 60
User-agent: Cliqzbot
Disallow: /
User-agent: Googlebot
Request-rate: 1/1 # load 1 page per 2 seconds
Crawl-delay: 10
mport urllib.request
import urllib.parse
import re
url="https://www.jianshu.com/c/bd38bd199ec6"
req=urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read().decode("utf-8")
#print(html)
pattern=re.compile(r'<p class="abstract">\s+(.*)\s+</p>')
result=re.findall(pattern,html)
#for each in result:
# print(each)
#print(result)
print("the length=============",len(result))
print("----------------",result[1])
print("*******",len(result[1]))
還有事情年,還有許多東西需要修改,比如把交友文章下載下來,或者爬取圖片,等等什麼的.
re表示式,我還不是很熟。
<a class="nickname" target="_blank" href="[/u/1195c9b43c46](view-source:https://www.jianshu.com/u/1195c9b43c46)">
大大懶魚</a>
<span class="time" data-shared-at="2018-04-26T21:15:25+08:00">
</span>
<a class="title" target="_blank" href="[/p/a1d691ab1111](view-source:https://www.jianshu.com/p/a1d691ab1111)">
【簡書交友】大大懶魚:愛好服裝搭配的特別能吃麻辣中年少女</a>
這些regular,我還必須寫出來,以及翻葉等。
相關文章
- Scrapy爬蟲-草稿爬蟲
- 爬蟲練習——爬取縱橫中文網爬蟲
- 爬蟲學習筆記:練習爬取多頁天涯帖子爬蟲筆記
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- python爬蟲練習--爬取虎牙主播原畫視訊Python爬蟲
- 使用requests+BeautifulSoup的簡單爬蟲練習爬蟲
- 【Python爬蟲】邏輯運算練習題Python爬蟲
- <node.js學習筆記(5)>koa框架和簡單爬蟲練習Node.js筆記框架爬蟲
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- 爬蟲學習-初次上路爬蟲
- python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊Python爬蟲
- 什麼是爬蟲?學習Python爬蟲難不難?爬蟲Python
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- 爬蟲:多程式爬蟲爬蟲
- python爬蟲是什麼?學習python爬蟲難嗎Python爬蟲
- 爬蟲學習日記(六)完成第一個爬蟲任務爬蟲
- Android 淘寶 爬蟲 學習Android爬蟲
- 爬蟲學習日記(六)爬蟲
- 爬蟲學習日記(八)爬蟲
- 爬蟲學習日記(七)爬蟲
- 爬蟲學習日記(二)爬蟲
- 爬蟲學習日記(一)爬蟲
- 爬蟲學習日記(五)爬蟲
- 爬蟲學習日記(三)爬蟲
- python爬蟲學習1Python爬蟲
- 逆向爬蟲知識學習爬蟲
- selenium爬蟲學習1爬蟲
- Python爬蟲訓練:爬取酷燃網視訊資料Python爬蟲
- 通用爬蟲與聚焦爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 50行程式碼,Node爬蟲練手專案 ?️行程爬蟲
- 分散式爬蟲學習筆記分散式爬蟲筆記
- Python爬蟲學習系列教程Python爬蟲
- 爬蟲之CSS語法學習爬蟲CSS
- 反爬蟲之字型反爬蟲爬蟲
- 爬蟲進階:反反爬蟲技巧爬蟲
- 一入爬蟲深似海,總結python爬蟲學習筆記!爬蟲Python筆記