釣魚網站規則提取工作的python程式碼重寫總結

Pop_Rain發表於2017-05-16

0_originJson_writeURL_inTxt.py：

import urllib.request
import json

origin_json_data = urllib.request.urlopen(r"http://www.txwz.qq.com/lib/index.php?m=enterprise&a=get_exsample").read()
ndata = json.loads(origin_json_data)  # ndata is decode_json_data

file_name = "f:/2017-05-16.txt"  # "/" "\" 或不寫 都可以
#這個是你放網址的檔名，改過來就可以了
file_open = open(file_name, "a") # 把提取出的資訊寫入file_name.txt檔案

for i in range( 0,len(ndata["data"]) ):
    type_data = ndata["data"][i]["bn"]
    url_data = ndata["data"][i]["n"]  #從解碼後的json資料中提取type、url資訊
    if "http" not in url_data:
        url_data = "http://" + url_data  #將字首沒有http;//的url加上協議字首
    file_open.write(url_data + "\n")  #將已經提取的資訊寫入txt檔案
file_open.close() #寫入完畢
print("txt_write finish")

1_txt_openableUrl_saveInTxt.py：

import urllib.request
import time
import requests #抓取並儲存網頁原始碼要用的包

opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/49.0.2')]
file = open('f:/1.txt')   #這個是你想檢測能否開啟的url所在檔名，改過來就可以了
lines = file.readlines()
aa=[]
for line in lines:
	temp=line.replace('\n','')
	aa.append(temp)
print(aa)

print('開始檢查：')
count = 0  # 計算txt中能開啟的網站的數量
#newfile = open("f:/URL_open.txt","a")  #這個是你儲存能開啟網址的檔名，改過來就可以了
for a in aa:
	tempUrl = a
	try :
		opener.open(tempUrl)
		print(tempUrl+'沒問題')
		
		newfile = open("f:/URL_open.txt","a")
		newfile.write(tempUrl+"\n")   #將能開啟的url寫入f:/URL_open.txt
		newfile.close()

		count = count + 1
		html = requests.get(tempUrl)
		tempfileName = "f:/" + str(count) + "_" + str(tempUrl[7:]) + ".txt"
		f = open(tempfileName,'a',encoding='utf-8')
		f.write(html.text)
		f.close()		#將能開啟的url寫入f:/URL_open.txt後 並且抓取其網頁原始碼並儲存至f:/count_url.txt中count、url都隨之變化
	except urllib.error.HTTPError:
		print(tempUrl+'=訪問頁面出錯')
		time.sleep(2)
	except urllib.error.URLError:
		print(tempUrl+'=訪問頁面出錯')
		time.sleep(2)
	time.sleep(0.1)
#newfile.close()

print("txt_openableUrl_saveInTxt-------->finish")

android jni程式碼編寫規則--整理總結
2016-04-14
Android
釣魚篇-網路釣魚
2024-03-08
釣魚網站與反釣魚技術剖析（圓桌會議）
2018-04-12
網站
如何防範釣魚網站詐騙？
2022-09-15
網站
css書寫規則總結
2016-04-12
CSS
微信紅包火了，釣魚網站樂了
2014-02-05
網站
“！提醒：續購防毒”釣魚網站套路
2024-10-03
防毒網站
中國反釣魚網站聯盟：2012年6月中國共處理釣魚網站總計89790個
2012-07-24
網站
DNS欺騙：網站克隆實現網站釣魚攻擊
2023-01-19
DNS網站
釣魚篇-其他釣魚
2024-03-09
Nginx 重寫規則指南
2015-04-09
Nginx
網路釣魚是什麼?網路釣魚攻擊的形式有哪些?
2024-02-02
釣魚篇-郵件釣魚
2024-03-07
爬取某網站寫的python程式碼
2019-11-29
網站Python
獵網平臺：雙11釣魚網站攻擊嚴重粵閩桂慘遭毒手
2015-11-16
網站
中國反釣魚網站聯盟：2014年6月中國共處理釣魚網站8186個
2014-08-06
網站
【釣魚】與【反釣魚】的技術剖析
2017-11-29
釣魚網站買機票成都男子被騙6944元
2015-08-26
網站
釣魚篇-其他型別釣魚
2024-03-09
型別
JavaScript-總結常用程式碼書寫規範
2016-10-11
JavaScript
網路釣魚攻擊
2023-09-25
DNS欺騙並與Cobalt Strike結合構建釣魚網站實驗
2020-09-27
DNS網站
中國反釣魚網站聯盟：2011年前11個月共處理釣魚網站36674個同比增長78%
2011-12-15
網站
nginx配置location總結及rewrite規則寫法
2019-01-19
Nginx
PL/SQL 01 程式碼編寫規則
2014-02-12
SQL
PhishLabs：金融業的釣魚攻擊大幅增長，入侵現有網站成為釣魚活動首選策略
2022-11-16
網站
病毒木馬釣魚網站肉雞等技術的正向利用
2011-12-31
網站
打擊釣魚網站谷歌Chrome即將會警告域名相似的網站
2019-02-01
網站谷歌Chrome
降低網路釣魚攻擊的風險
2017-07-03
個人總結的一些寫JS程式碼的基本規範
2019-08-18
JS
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
釣魚網站與病毒頻發背後網路支付黑色利益鏈
2016-03-12
網站
Nginx URL重寫規則配置詳解
2019-03-18
Nginx
鬆寶寫程式碼2021年總結：突破重圍
2022-01-02
今天出現的怪現象，調查網站竟然被qq管家說成是釣魚網站
2011-08-22
網站
釣魚攻擊防不勝防，該如何預防網路釣魚攻擊？
2022-08-24
Apache重寫規則的常見應用(轉)
2007-08-11
Apache
程式碼混淆的規則
2015-12-22

釣魚網站規則提取工作的python程式碼重寫總結

0_originJson_writeURL_inTxt.py：

1_txt_openableUrl_saveInTxt.py：

相關文章