概述
- 前言
- 統計結果
- 爬蟲技術分析
- 爬蟲程式碼實現
- 爬蟲分析實現
- 後記
- 預告
前言
**多圖預警、多圖預警、多圖預警。**秋招季,畢業也多,跳槽也多。我們的職業發展還是要順應市場需求,那麼各門程式語言在深圳的需求怎麼呢?工資待遇怎麼樣呢?zone 在上次寫了這篇文章之後【用Python告訴你深圳房租有多高】,想繼續用 Python 分析一下,當前深圳的求職市場怎麼樣?於是便爬取了某鉤招聘資料。以下是本次爬蟲的樣本資料:

本次統計資料量為 4658 ,其中某拉鉤最多能顯示 30 頁資料,每頁 15 條招聘資訊,則總為:
30 x 15 = 450
首頁爬取跳過一頁,則為 435 條,故資料基本爬完。其餘不夠數量的語言為該語言在深圳只有這麼多條招聘資訊。
統計結果
各語言平均工資 其中
- 精準推薦
- 自然語言
- 機器學習
- Go 語言
- 影象識別
獨領風騷啊!!!平均工資都挺高的。區塊鏈炒得挺火的,好像平均薪資並沒有那麼高。我統計完之後,感覺自己拖後腿了,ma 的!!!要刪庫跑路了!

平均工資計算方式:

(10k + 20k)/2 = 15k
最後,再總體求平均數。 公司福利詞雲 看福利還是挺豐富的,帶薪休假、下午茶、零食、節假日。

公司發展級別排行 總體由 A 輪向 D 輪縮減,大部分公司不需要融資,嗯,估計是拿不到資本融資,但是自家人又有錢的。

各語言工作年限要求與學歷要求 看看你的本命語言的市場需求怎麼樣?你達標了嗎?其中三至五年的攻城獅職位挺多的,不怕找不到工作。還有一個趨勢是,薪資越高,學歷要求越高高。看來學歷還是挺重要的。
Java


Python


C 語言


機器學習


影象識別


自然語言


區塊鏈


Go 語言


PHP


Android


iOS


web 前端


精準推薦


Node.js


Hadoop


爬蟲技術分析
- 請求庫:selenium
- HTML 解析:BeautifulSoup、xpath
- 詞雲:wordcloud
- 資料視覺化:pyecharts
- 資料庫:MongoDB
- 資料庫連線:pymongo
爬蟲程式碼實現
看完統計結果之後,有沒有躍躍欲試?想要自己也實現以下程式碼?以下為程式碼實現。 對網頁右擊,點選檢查,找到一條 item 的資料:

/* 1 */
{
"_id" : ObjectId("5b8b89328ffaed60a308bacd"),
"education" : "本科",# 學習要求
"companySize" : "2000人以上",# 公司人數規模
"name" : "python開發工程師",# 職位名稱
"welfare" : "“朝九晚五,公司平臺大,發展機遇多,六險一金”",# 公司福利
"salaryMid" : 12.5,# 工資上限與工資下限的平均數
"companyType" : "移動網際網路",# 公司型別
"salaryMin" : "10",# 工資下限
"salaryMax" : "15",# 工資上限
"experience" : "經驗3-5年",# 工作年限
"companyLevel" : "不需要融資",# 公司級別
"company" : "XXX技術有限公司"# 公司名稱
}
複製程式碼
由於篇幅原因,以下只展示主要程式碼:
# 獲取網頁原始碼資料
# language => 程式語言
# city => 城市
# collectionType => 值:True/False True => 資料庫表以程式語言命名 False => 以城市命名
def main(self, language, city, collectionType):
print(" 當前爬取的語言為 => " + language + " 當前爬取的城市為 => " + city)
url = self.getUrl(language, city)
browser = webdriver.Chrome()
browser.get(url)
browser.implicitly_wait(10)
for i in range(30):
selector = etree.HTML(browser.page_source) # 獲取原始碼
soup = BeautifulSoup(browser.page_source, "html.parser")
span = soup.find("div", attrs={"class": "pager_container"}).find("span", attrs={"action": "next"})
print(
span) # <span action="next" class="pager_next pager_next_disabled" hidefocus="hidefocus">下一頁<strong class="pager_lgthen pager_lgthen_dis"></strong></span>
classArr = span['class']
print(classArr) # 輸出內容為 -> ['pager_next', 'pager_next_disabled']
attr = list(classArr)[0]
attr2 = list(classArr)[1]
if attr2 == "pager_next_disabled":#分析發現 class 屬性為 ['pager_next', 'pager_next_disabled'] 時,【下一頁】按鈕不可點選
print("已經爬到最後一頁,爬蟲結束")
break
else:
print("還有下一頁,爬蟲繼續")
browser.find_element_by_xpath('//*[@id="order"]/li/div[4]/div[2]').click() # 點選下一頁
time.sleep(5)
print('第{}頁抓取完畢'.format(i + 1))
self.getItemData(selector, language, city, collectionType)# 解析 item 資料,並存進資料庫
browser.close()
複製程式碼
爬蟲分析實現
# 獲取各語言樣本數量
def getLanguageNum(self):
analycisList = []
for index, language in enumerate(self.getLanguage()):
collection = self.zfdb["z_" + language]
totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])
totalNum2 = list(totalNum)[0]["total_num"]
analycisList.append(totalNum2)
return (self.getLanguage(), analycisList)
# 獲取各語言的平均工資
def getLanguageAvgSalary(self):
analycisList = []
for index, language in enumerate(self.getLanguage()):
collection = self.zfdb["z_" + language]
totalSalary = collection.aggregate([{'$group': {'_id': '', 'total_salary': {'$sum': '$salaryMid'}}}])
totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])
totalNum2 = list(totalNum)[0]["total_num"]
totalSalary2 = list(totalSalary)[0]["total_salary"]
analycisList.append(round(totalSalary2 / totalNum2, 2))
return (self.getLanguage(), analycisList)
# 獲取一門語言的學歷要求(用於 pyecharts 的詞雲)
def getEducation(self, language):
results = self.zfdb["z_" + language].aggregate([{'$group': {'_id': '$education', 'weight': {'$sum': 1}}}])
educationList = []
weightList = []
for result in results:
educationList.append(result["_id"])
weightList.append(result["weight"])
# print(list(result))
return (educationList, weightList)
# 獲取一門語言的工作年限要求(用於 pyecharts 的詞雲)
def getExperience(self, language):
results = self.zfdb["z_" + language].aggregate([{'$group': {'_id': '$experience', 'weight': {'$sum': 1}}}])
totalAvgPriceDirList = []
for result in results:
totalAvgPriceDirList.append(
{"value": result["weight"], "name": result["_id"] + " " + str(result["weight"])})
return totalAvgPriceDirList
# 獲取 welfare 資料,用於構建福利詞雲
def getWelfare(self):
content = ''
queryArgs = {}
projectionFields = {'_id': False, 'welfare': True} # 用字典指定
for language in self.getLanguage():
collection = self.zfdb["z_" + language]
searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)
for result in searchRes:
print(result["welfare"])
content += result["welfare"]
return content
# 獲取公司級別排行(用於條形圖)
def getAllCompanyLevel(self):
levelList = []
weightList = []
newWeightList = []
attrList = ["A輪", "B輪", "C輪", "D輪及以上", "不需要融資", "上市公司"]
for language in self.getLanguage():
collection = self.zfdb["z_" + language]
# searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)
results = collection.aggregate([{'$group': {'_id': '$companyLevel', 'weight': {'$sum': 1}}}])
for result in results:
levelList.append(result["_id"])
weightList.append(result["weight"])
for index, attr in enumerate(attrList):
newWeight = 0
for index2, level in enumerate(levelList):
if attr == level:
newWeight += weightList[index2]
newWeightList.append(newWeight)
return (attrList, newWeightList)
複製程式碼
後記
總體就分析到這裡了,如果你也想看看你所在的城市的薪資標準與市場需求,歡迎後臺騷擾。如果人數多,我就專門寫下你所在的城市的分析。
預告
最近寫了挺多關於 Python 的文章,但是這是一個後端公眾號啊,所以接下來準備寫寫後端相關的。最近微服務概念炒得挺火的,但網路好像都沒找到什麼實實在在的專案來學習,剛好我前段時間用 Python 與 Node.js 寫了下微服務,所以下面會寫微服務相關的文章。敬請期待!
本篇文章首發於公眾號「zone7」,關注公眾號獲取最新推文,後臺回覆【深圳求職】獲取原始碼。