前言:本文主要講scrapy框架的原理和使用,建議至少在理解掌握python爬蟲原理後再使用框架(不要問我為什麼,我哭給你看)。
雙十一馬上就要來了,在舉國一片“買買買”的呼聲中,單身汪的咆哮聲也愈發淒厲了。作為一個Python程式設計師,要如何找到小姐姐,避開暴擊傷害,在智中取勝呢?於是就有了以下的對話:
so~今天我們的目標是,爬社群的小姐姐~而且,我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~
1.scrapy原理
在寫過幾個爬蟲程式之後,我們就知道,利用爬蟲獲取資料大概的步驟:請求網頁,獲取網頁,匹配資訊,下載資料,資料清洗,存入資料庫。
scrapy是一個很有名的爬蟲框架,可以很方便的進行網頁資訊爬取。那麼scrapy到底是如何工作的呢?之前在網上看了不少scrapy入門的教程,大多數入門教程都配有這張圖。
_(:зゝ∠)_也不知道是這張圖實在太經典了,還是程式設計師們都懶得畫圖,第一次看到這個圖的時候,米醬的心情是這樣的
經過了一番深入的理解,大概知道這幅圖的意思,讓我來舉個例子(是的,我又要舉奇怪的栗子了):
當我們想吃東西的時候,我們會出門,走到街上,尋找一家想吃的點,然後點餐,服務員再通知廚房去做,最後菜到餐桌上,或者被打包帶走。這就是爬蟲程式在做的事,它要將所有獲取資料需要進行的操作,都寫好。
而scrapy就像一個點餐app一般的存在,在訂餐列表(spiders)選取自己目標餐廳裡想吃的菜(items),在收貨(pipeline)處寫上自己的收貨地址(儲存方式),點餐系統(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好,由於會產生多個外賣取貨訂單(request),系統會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。
什麼意思呢?在使用scrapy時,我們只需要設定spiders(想要爬取的內容),pipeline(資料的清洗,資料的儲存方式),還有一個middlewares,是各功能間對接時的一些設定,就可以不用操心其他的過程,一切交給scrapy模組來完成。
2.建立scrapy工程
安裝scrapy之後,建立一個新專案
$ scrapy startproject zhihuxjj複製程式碼
我用的是pycharm編譯器,在spiders檔案下建立zhihuxjj.py
在zhihuxjj.py這個檔案中,我們要編寫我們的爬取規則。
3.爬取規則制定(spider)
建立好了專案,讓我們來看一下我們要吃的店和菜…哦不,要爬的網站和資料。
我選用了知乎作為爬取平臺,知乎是沒有使用者從1到n的序列id的,每個人可以設定自己的個人主頁id,且為唯一。所以採選了選取一枚種子使用者,爬取他的關注者,也可以關注者和粉絲一起爬,考慮到粉絲中有些三無使用者,我僅選擇了爬取關注者列表,再通過關注者主頁爬取關注者的關注者,如此遞迴。
對於程式的設計,是這樣的。
start url是scrapy中的一個標誌性的值,它用於設定爬蟲程式的開始,也就是從哪裡開始爬,按照設定,從種子使用者個人主頁開始爬便是正義,但是考慮到個人主頁的連結會進行重複使用,所以在這裡我將起始url設成了知乎主頁。
之後就是種子使用者的個人主頁,知乎粉絲多的大V很多,但是關注多的人就比較難發現了,這裡我選擇了知乎的黃繼新,聯合創始人,想必關注了不少優質使用者(≖‿≖)✧。
分析一下個人主頁可知,個人主頁由`www.zhihu.com/people/` + 使用者id 組成,我們要獲取的資訊是用callback回撥函式(敲黑板!!劃重點!!)的方式設計,這裡一共設計了倆個回撥函式:使用者的關注列表和關注者的個人資訊。
使用chrome瀏覽器檢視上圖的頁面可知獲取關注列表的url,以及關注者的使用者id。
將滑鼠放在使用者名稱上。
可以獲得個人使用者資訊的url。分析url可知:
關注者列表連結構成:`https://www.zhihu.com/api/v4/members/` + `使用者id` + `/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20`
個人資訊連結構成:`https://www.zhihu.com/api/v4/members/` + `使用者id` + `?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics`複製程式碼
so,我們在上一節中建立的zhihuxjj.py檔案中寫入以下程式碼。
import json
from zhihuxjj.items import ZhihuxjjItem
from scrapy import Spider,Request
class ZhihuxjjSpider(Spider):
name=`zhihuxjj` #scrapy用於區別其他spider的名字,具有唯一性。
allowed_domains = ["www.zhihu.com"] #爬取範圍
start_urls = ["https://www.zhihu.com/"]
start_user = "jixin"
followees_url = `https://www.zhihu.com/api/v4/members/{user}/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={offset}&limit=20` #關注列表網址
user_url = `https://www.zhihu.com/api/v4/members/{user}?include=locations,employments,gender,educations,business,voteup_count,thanked_Count,follower_count,following_count,cover_url,following_topic_count,following_question_count,following_favlists_count,following_columns_count,avatar_hue,answer_count,articles_count,pins_count,question_count,commercial_question_count,favorite_count,favorited_count,logs_count,marked_answers_count,marked_answers_text,message_thread_token,account_status,is_active,is_force_renamed,is_bind_sina,sina_weibo_url,sina_weibo_name,show_sina_weibo,is_blocking,is_blocked,is_following,is_followed,mutual_followees_count,vote_to_count,vote_from_count,thank_to_count,thank_from_count,thanked_count,description,hosted_live_count,participated_live_count,allow_message,industry_category,org_name,org_homepage,badge[?(type=best_answerer)].topics` #個人資訊連結
def start_requests(self):
yield Request(self.followees_url.format(user=self.start_user,offset=0),callback=self.parse_fo) #回撥種子使用者的關注列表
yield Request(self.user_url.format(user=self.start_user,include = self.user_include),callback=self.parse_user) #回撥種子使用者的個人資訊
def parse_user(self, response):
result = json.loads(response.text)
print(result)
item = ZhihuxjjItem()
item[`user_name`] = result[`name`]
item[`sex`] = result[`gender`] # gender為1是男,0是女,-1是未設定
item[`user_sign`] = result[`headline`]
item[`user_avatar`] = result[`avatar_url_template`].format(size=`xl`)
item[`user_url`] = `https://www.zhihu.com/people/` + result[`url_token`]
if len(result[`locations`]):
item[`user_add`] = result[`locations`][0][`name`]
else:
item[`user_add`] = ``
yield item
def parse_fo(self, response):
results = json.loads(response.text)
for result in results[`data`]:
yield Request(self.user_url.format(user=result[`url_token`], include=self.user_include),callback=self.parse_user)
yield Request(self.followees_url.format(user=result[`url_token`], offset=0),callback=self.parse_fo) # 對關注者的關注者進行遍歷,爬取深度depth+=1
if results[`paging`][`is_end`] is False: #關注列表頁是否為尾頁
next_url = results[`paging`][`next`].replace(`http`,`https`)
yield Request(next_url,callback=self.parse_fo)
else:
pass複製程式碼
這裡需要劃重點的是yield的用法,以及item[`name`],將爬取結果賦值給item,就是告訴系統,這是我們要選的菜…啊呸…要爬的目標資料。
4.設定其他資訊
在items.py檔案中,按照spider中設定的目標資料item,新增對應的程式碼。
import scrapy
class ZhihuxjjItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
user_name = scrapy.Field()
sex = scrapy.Field()
user_sign = scrapy.Field()
user_url = scrapy.Field()
user_avatar = scrapy.Field()
user_add = scrapy.Field()
pass複製程式碼
在pipeline.py中新增存入資料庫的程式碼(資料庫咋用上一篇文章寫了哦~)。
import pymysql
def dbHandle():
conn = pymysql.connect(
host=`localhost`,
user=`root`,
passwd=`資料庫密碼`,
charset=`utf8`,
use_unicode=False
)
return conn
class ZhihuxjjPipeline(object):
def process_item(self, item, spider):
dbObject = dbHandle() # 寫入資料庫
cursor = dbObject.cursor()
sql = "insert into xiaojiejie.zhihu(user_name,sex,user_sign,user_avatar,user_url,user_add) values(%s,%s,%s,%s,%s,%s)"
param = (item[`user_name`],item[`sex`],item[`user_sign`],item[`user_avatar`],item[`user_url`],item[`user_add`])
try:
cursor.execute(sql, param)
dbObject.commit()
except Exception as e:
print(e)
dbObject.rollback()
return item複製程式碼
因為使用了pipeline.py,所以我們還需要再setting.py檔案中,將ITEM_PIPELINE註釋解除,這裡起到連線兩個檔案的作用。
到這裡,基本就都設定好了,程式基本上就可以跑了。不過因為scrapy是遵循robots.txt法則的,所以讓我們來觀察一下知乎的法則www.zhihu.com/robots.txt
emmmmmmm,看完法則了嗎,很好,然後我們在setting.py中,將ROBOTSTXT_OBEY 改成 False。(逃
好像…還忘了點什麼,對了,忘記設定headers了。通用的設定headers的方法同樣是在setting.py檔案中,將DEFAULT_REQUEST_HEADERS的程式碼註釋狀態取消,並設定模擬瀏覽器頭。知乎是要模擬登入的,如果使用遊客方式登入,就需要新增authorization,至於這個authorization是如何獲取的,我,就,不,告,訴,你(逃
DEFAULT_REQUEST_HEADERS = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",
`authorization`: `oauth c3cef7c66a1843f8b3a9e6a1e3160e20`
}複製程式碼
為了減少伺服器壓力&防止被封,解除DOWNLOAD_DELAY註釋狀態,這是設定下載延遲,將下載延遲設為3(robots法則裡要求是10,但10實在太慢了_(:зゝ∠)_知乎的程式設計師小哥哥看不見這句話看不見這句話…
寫到這裡你會發現,很多我們需要進行的操作,scrapy都已經寫好了,只需要將註釋去掉,再稍作修改,就可以實現功能了。scrapy框架還有很多功能,可以閱讀官方文件瞭解。
5.執行scrapy檔案
寫好scrapy程式後,我們可以在終端輸入
$ scrapy crawl zhihuxjj複製程式碼
執行檔案。
但也可以在資料夾中新增main.py,並新增以下程式碼。
然後直接用pycharm執行main.py檔案即可,然後我們就可以愉快的爬知乎使用者啦~(帥哥們小姐姐我來啦~
6.查詢小姐姐
經過了X天的執行,_(:зゝ∠)_爬到了7w條使用者資料,爬取深度5。(這爬取速度讓我覺得有必要上分散式爬蟲了…這個改天再嘮)
有了資料我們就可以選擇,同城市的使用者進行研究了……
先國際慣例的分析一下資料。
在7w使用者中,明顯男性超過了半數,標明自己是女性的使用者只佔了30%左右,還有一部分沒有註明性別,優質的小姐姐還是稀缺資源呀~
再來看看小姐姐們都在哪個城市。(從7w使用者中篩選出性別女且地址資訊不為空的使用者)
看來小姐姐們還是集中在北上廣深杭的,所以想發現優質小姐姐的男孩紙們還是要向一線看齊啊,當然也不排除在二三線的小姐姐們沒有標記處自己的地理位置。
emmmmm……這次的分析,就到此為止,你們可以去撩小姐姐們了。(逃
7.研究小姐姐
意不意外?開不開心?這裡還有一章。正所謂,授之以魚,不如授之以漁;撒了心靈雞湯,還得加一隻心靈雞腿;找到了小姐姐,我們還要了解小姐姐…………
讓我再舉個例子~來研究一個小姐姐。(知乎名:動次,已獲取小姐姐授權作為示例。)
讓我們來爬一下她的動態,chrome右鍵檢查翻network這些套路我就不說了,直接將研究目標。
贊同的答案和文章(瞭解小姐姐的興趣點)
釋出的答案和文章(瞭解小姐姐的世界觀、人生觀、價值觀)
關注的問題和收藏夾(瞭解小姐姐需求)
提出的問題(瞭解小姐姐的疑惑)
程式碼也不貼了,會放在gayhub的,來看一下輸出。
因為你乎風格,所以對停用詞進行了一些加工,新增了“如何”“看待”“體驗”等詞語,得到了小姐姐回答問題的詞頻。小姐姐的回答裡出現了喜歡、朋友、爺爺等詞語。
還有!!在關注、贊同和輸出中,都有的詞(✪ω✪)。(是不是可以靠美味捕獲小姐姐呢……
再來一張劉看山背景的,答題詞雲。
8.後記
本文涉及專案會持續更新,會將研究物件擴充至各平臺,並進行後續優化,有興趣的盆友可以關注gayhub專案。
結尾引用知乎使用者陳壯壯在《當你追求女生時,你們聊些什麼?》的回答。(因為窮我就不申請轉載了你們自己點進去看吧(ಥ﹏ಥ),你們只要知道我有顆帶你們撩妹的心就行了)
本文已釋出於微信公眾號:大吉大利小米醬
原文連結:zhuanlan.zhihu.com/p/30903845
本文版權歸 大吉大利小米醬@簡書、宅米RICE@知乎 所有,未經授權不得轉載