過濾搜尋引擎的抓取資料

Mysticbinary發表於2020-04-17

一些規定

  • 搜尋引擎不區分大小寫;
  • Google限制最多搜尋32個單詞,包含搜尋項和高階運算子。不過也有一些其他方法繞過這種限制,比如使用萬用字元來代替某些搜尋項。
  • 同樣的搜尋語法,百度有時也會得到驚喜。

基礎型查詢

  • inurl
    搜尋包含有特定字元的URL。例如輸入inurl:/admin_login,則可以找到帶有admin_login字元的URL,通常這類網址是管理員後臺的登入網址。

  • intext
    搜尋網頁正文內容中的指定字元,例如輸入intext:後臺登陸
    這個語法類似我們平時在某些網站中使用的“文章內容搜尋”功能,把網頁中的正文內容中的某個字元做為搜尋條件,

  • intitle
    搜尋網頁標題中包含有特定字元的網頁。例如輸入intitle:後臺登陸,這樣網頁標題中帶有上科互聯的網頁會被搜尋出來。和上面那個intext差不多,搜尋網頁標題中是否有我們所要找的字元,例如搜尋:intitle:安全天使,將返回所有網頁標題中包含“安全天使”的網頁。同理allintitle也同intitle類似。
    allintext:家庭住址

  • filetype
    搜尋指定型別的檔案。例如輸入filetype:PDF,將返回PDF文件。這個我要重點推薦一下,無論是撒網式攻擊還是我們後面要說的搜尋指定型別的檔案。
    doc .bak .db .mdb .inc

  • site
    指定域名搜尋,這個過濾比較精確,後面會在複合型查詢時 作為一個前提條件。例如輸入site:www.sunghost.cn。所有和這個網站有關的URL都會被顯示。

  • cache
    有些頁面已經訪問不了,或者想看他的網頁歷史快照,可以用cashe,cache:www.juwan888.com

  • define
    搜尋某個詞語的定義。搜尋:define:微積分,將返回關於微積分的一些定義。

  • info
    查詢指定站點的一些基本資訊。info:www.douban.com,返回一些關於豆瓣公司的一些介紹,動態,公告。

  • link
    例如搜尋:link:www.cnblogs.com/mysticbinary,返回所有網頁包含www.cnblogs.com/mysticbinary連結的URL。



符號使用

Google 不區分大小寫,除了 or 被用作布林運算子時,所以必須寫做OR。 符號的使用和正則匹配很像,很多規則可以通用。

  • “特定搜尋”
    加上“ ”英文引號,指定搜尋結果必須一樣。

  • 萬用字元 *
    必須在 “ ”中使用*,"kali * web滲透測試"

  • 點號 .
    與萬用字元星號*一樣也必須在“” 內使用, 不一樣的是點號.匹配的是字元,不是字、短語等內容,而是符號。保留的符號有,.[(-等。


布林邏輯

  • 邏輯與 就是空格、AND

  • 或 (java|php)

  • 非 -java
    不包含

  • 約束條件 +
    “mysticbinar” + “不可能傳送的事”

  • 括號分組 ()
    和正則一樣

  • 時間範圍 2020..2020
    "美團*術" 2020..2020



複合型查詢

下面從安全的角度來過濾出想要的資料,我感覺使用谷歌語法搜尋這也是一種資料分析,只不過分析的流量來自搜尋引擎,1.是你得先知道你想要搜尋什麼,定出特徵,才好分析出來。2.是搜尋引擎必須收錄(爬取)有資料才能過濾出來,一些小站本來就沒收錄幾個url,任你過濾語法在精確,也沒啥用。

站點的資訊收集

  • 子域名查詢
# 使用site限定範圍並使用*來進行泛查詢,最後用-排除掉主域名,得到的就是子域名:
site:*.jd.com -www.jd.com
  • C段查詢
# 如果你知道這個網站的IP,你也可以使用site結合萬用字元來查詢在C段上存在的網站
site:18.18.18.*

過濾出功能

  • 登陸介面查詢
allback=|api=|interface=|function=|functions=|count=
passlogin|ftppwd|password|secret|credentials|token
conf|config|security|jdbc|auth|system|db|ini|init
security_credentials|connetionstring
ssh2_auth_password|send_keys
doc|docx|xls|xlsx|pdf
oa|rem|ehr|cms|main|wp|test|ceshiboos|bossbook
word|master|count|log|login|reg|register|phpMyAdmin

site:jd.com intext:管理|後臺|登陸|使用者名稱|密碼|帳號|註冊|admin|login|manage
site:jd.com intext:管理|後臺|登入|使用者名稱|密碼|驗證碼|系統|賬號|服務端|後端|phpMyAdmin
site:jd.com intitle:管理|後臺|登入|使用者名稱|密碼|驗證碼|系統|賬號|服務端|後端|phpMyAdmin
site:jd.com intext:(password|passcode|pass|密碼) intext:(username|userid|user|使用者|賬戶)
site:jd.com intext:oa|rem|ehr|system|test|guanli|denglu|manager|register|houtai|guanli|forgotten
site:ly.com intext:rem|ehr|guanli|denglu
site:jd.com intext:"Powered by"
  • 搜特定功能
site:jd.com inurl:ewebeditor|editor|uploadfile|eweb|edit|php?id=|asp?id=
site:jd.com inurl:upload|upfile|saveup intext:提交|確定|上傳
site:jd.com inurl:"path="|"readfile="|"file="|"url="
site:jd.com intext:提交|確定|評論
site:jd.com intext:個人資訊管理|會員|個人空間 OR inurl:member|zone

site:jd.com inurl:"/uddiexplorer/SetupUDDIExplorer.jsp"
site:jd.com inurl:admin|login|manage|manager|register|prelogin|logincheck
site:jd.com inurl:admin|administration|administrator|manage|login|sys|managetem|password|username
site:jd.com inurl:login|admin|manage|admin_login|login_admin|system|boos|master|main|cms|wp
site:jd.com inurl:oa|rem|ehr|system|test|guanli|denglu
site:jd.com inurl:*"gk"*|*"publick"*|*"pub"*

site:jd.com intext:"sql syntax near"|"syntax error has occurred"| "incorrect syntax near"|"unexpected end of SQL command"|"mysql_connect()"|"mysql_query()"|"Warning: pg_connect()"
site:jd.com intext:"/var/lib/"|"/var/www/"|"D:\"|"C:\"
# 檢視是否還遺留木馬頁面
site:example.com intext:劍眉大俠|不滅之魂|仗劍孤行|通殺版|法客論壇|上傳的口令|"匯出DLL檔案出錯”|"token虛擬機器管理"|老子的絕對路徑|免殺版
site:example.com intext:法克|後門|木馬|小馬|大馬|脫庫|黑客|一句話後門|掛馬|清馬|"掃描IP”|開放埠|提權|執行命令|設定密碼|提升許可權
site:example.com intext:一句話木馬|過狗|安全狗|"K8飛刀"|"K8拉登哥哥"|"K8搞基大隊"|反彈埠|"hacked by"
site:example.com inurl:phpspy|udf|JFolder|JspSpyJDK5|AspxSpy2014Final
site:example.com intext:"Georg says" intext:"All seems fine"
site:example.com intext:"Struts2 Exploit Test"
# 一些容器特徵
site:example.com intext:"Dumping data for table"
site:example.com intitle:"apache tomcat/" "Apache Tomcat examples"
site:example.com inurl:examples|jsp|snp|snoop.jsp
site:example.com (inurl:"robot.txt” | inurl:"robots.txt") intext:disallow filetype:txt
site:example.com filetype: reg HKEY_CURRENT_USER username
site:example.com inurl:tmp|temp|cache…

過濾出敏感檔案

  • 郵箱/QQ/群
site:example.com intext:qq|qq群|企鵝|騰訊|email|郵件
site:example.com intitle:qq|qq群|企鵝|騰訊|email|郵件
site:example.com intext:郵箱|郵件|email|e-mail
site:example.com intext:"@qq.com"|"@163.com"
site:example.com intext:電話|手機號|聯絡方式|請撥打

  • index of/*
site:jd.com index of/*
site:xxx.xxx intitle:index of
Index of /password
Index of / passwd 
"index?of/" config
"Index of /" password.txt
site:example.com intitle:index .of "parent directory"
site:example.com intitle:index .of name size
site:example.com intitle:index .of inurl:admin
site:example.com intitle:index .of "Application Data/Microsoft/Credentials"
site:example.com intitle:index .of etc|.sh_history|.bash_history|passwd|people.lst|htpasswd
  • phpmyadmin
site:ulnetworks.co.kr ?inurl:.php ?intext:CHARACTER_SETS,COLLATIONS, ?intitle:phpmyadmin
  • 檔案查詢
這個語法不能使用 |,為什麼不用布林邏輯彙總在一條查詢裡呢?
因為在實際測試中,發現 filetype 和 ext 運算子與布林邏輯的合作性並不是很好,
經常有查不到任何資料的情況出現,因此寧願多進行幾次查詢,來增加我們查詢的命中率。

site:jd.com filetype:doc
mdb
ini
php
asp
aspx
jsp
json
xml
pdf
doc
xlsx
xls
csv
git
txt
text
log
sql
cnf
conf
zip
rar
tar
tar.gz
7z
cab
gz
iso
bz2
jar
bkf
bkp
bak
old
backup
dll
ctl
inf
cfg

sql
db
dbf
mdb
wdb
backupdb


site:example.com filetype:doc "密碼"
site:example.com filetype:xls|xlxs "密碼"
site:example.com filetype:doc intitle:"管理"


參考

http://absec.cn/?p=751
https://www.cnblogs.com/xuanhun/p/3910134.html

相關文章