程式設計師最愛的網站克隆爬取工具- HTTrack

kuibatian發表於2020-03-25

有一些專門針對網站克隆爬取的軟體,如 WebZip、awwwb.com 等等,據說挺好用的。這裡我給大家介紹一款程式設計師最愛的網站克隆爬取工具- HTTrack,而且是開源的。

HTTrack 是一個免費並易於使用的線下瀏覽器工具,全稱是 HTTrack Website Copier for Windows,它能夠讓你從網際網路上下載指定的網站進行線下瀏覽(離線瀏覽),也可以用來收集資訊(甚至有網站使用隱藏的密碼檔案),一些模擬度極高的偽網站(為了騙取使用者密碼),也是使用類似工具做的。瀏覽線下站點和線上並沒有什麼不同。

HTTrack 同樣可以進行線下線上站點同步,支援斷點續傳。HTTrack 是一個可全面配置幷包括全面的幫助系統的工具。對於傳統的像存在 Robots.txt 的網站,如果程式執行的時候不做限制,在預設的環境下程式不會把網站映象,簡單來說 HTTPrack 跟隨基本的 JavaScript 或者 APPLet、flash 中的連結,對於複雜的連結(使用函式和表示式建立的連結)或者伺服器端的 ImageMap 則不能映象。一般不用挖的太深就能獲取目標資訊比如網站的實體地址,電話號碼,電子郵箱地址,運營時間,商業關係,員工的姓名,與社會關係,以及公開的一些花絮。做滲透測試時新聞其實也很重要,公司時常會公開一些自己感到驕傲的事情,這些報到中可能會洩露有用的資訊,企業兼併伺服器運轉的情況等等。

用 Httrack 可以將一個網站拷貝下來,以此進行下線的探測發現,以此減少對目標網站的直接互動。Httrack 的使用很簡單,只需要根據其嚮導按步驟進行就好了。

HTTrack 已經被預安裝在以下 Linux 系統中:

如沒有可以自行參考以下的安裝方式進行下載安裝。

HTTrack 的安裝和使用

HTTrack 支援 Windows、Linux 和 MacOS 等主流的作業系統,且針對 Windows 而言,HTTrack 有視覺化介面的支援,效果如下:

程式設計師最愛的網站克隆爬取工具- HTTrack

Windows 下安裝:

通過 http://www.httrack.com/page/2/en/index.html,Download 下載對應的版本即可。

Linux 下安裝:

# Debian/Ubuntu下安裝
sudo apt install httrack
# CentOS/Fedora下安裝
sudo yum install httrack
# Gentoo下安裝
sudo emerge httrack

Mac OSX 下安裝:

sudo port install httrack
# 或者
brew install httrack

直接通過原始碼編譯下安裝:

git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=$HOME/usr && make -j8 && make install

具體參考:http://www.httrack.com/page/2/en/index.htm...

常用的引數選項可以通過 httrack --help 檢視。

測試站地址: https://****.com

xdl@xdl-virtual-machine:~/Downloads$ htt
httrack    httxt2dbm  
xdl@xdl-virtual-machine:~/Downloads$ httrack 

Welcome to HTTrack Website Copier (Offline Browser) 3.49-2
Copyright (C) 1998-2017 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help

Enter project name :jiayu

Base path (return=/home/xdl/websites/) :

Enter URLs (separated by commas or blank spaces) :https://localhost.com

Action:
(enter)    1    Mirror Web Site(s)
    2    Mirror Web Site(s) with Wizard
    3    Just Get Files Indicated
    4    Mirror ALL links in URLs (Multiple Mirror)
    5    Test Links In URLs (Bookmark Test)
    0    Quit
: 

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :

You can define additional options, such as recurse level (-r<number>), separated by blank spaces
To see the option list, type help
Additional options (return=none) :

---> Wizard command line: httrack https://localhost.com  -O "/home/xdl/websites/jiayu"  -%v  

Ready to launch the mirror? (Y/n) :y

Mirror launched on Wed, 25 Mar 2020 13:29:38 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://localhost.com with the wizard help..
Done.
Thanks for using HTTrack!
* 

引數解析

# 1. 輸入待生成的專案名稱
Enter project name :progit
# 2. 輸入待儲存的專案所在的路徑
Base path (return=/Users/apple/websites/) :/Users/apple/Desktop
# 3. 輸入需要克隆的網站的 url
Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/

Action:
(enter)    1    Mirror Web Site(s)
    2    Mirror Web Site(s) with Wizard
    3    Just Get Files Indicated
    4    Mirror ALL links in URLs (Multiple Mirror)
    5    Test Links In URLs (Bookmark Test)
    0    Quit
:
# 4. 沒有特別要求直接回車即可
Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
# 5. 沒有特別要求直接回車即可
Wildcards (return=none) :

You can define additional options, such as recurse level (-r<number>), separated by blank spaces
To see the option list, type help
# 6. 沒有特別要求直接回車即可
Additional options (return=none) :

---> Wizard command line: httrack https://progit.bootcss.com/  -O "/Users/apple/Desktop/progit"  -%v

Ready to launch the mirror? (Y/n) :Y

Mirror launched on Thu, 15 Aug 2019 11:54:40 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://progit.bootcss.com/ with the wizard help..
Done.
Thanks for using HTTrack!
*

檢視結果

程式設計師最愛的網站克隆爬取工具- HTTrack

把之中的,localhost.com 資料夾就是你爬取下的網站。
程式設計師最愛的網站克隆爬取工具- HTTrack

但是發現開啟後,有一個報錯,提示cdn的js,無法直接訪問。

程式設計師最愛的網站克隆爬取工具- HTTrack

那這種,我們只能去cdn上給下載到本地了。

下載後發現是有路徑錯誤,我們開啟程式碼發現全是加密了。

程式設計師最愛的網站克隆爬取工具- HTTrack

程式設計師最愛的網站克隆爬取工具- HTTrack

開啟報錯地方的js程式碼:

程式設計師最愛的網站克隆爬取工具- HTTrack

好吧加密了,我們解一下。可以直接使用js解密工具。

解密後 好看多了。
程式設計師最愛的網站克隆爬取工具- HTTrack

經過一番程式碼解析,尋找。具體就不提了。

我們把路徑改正確。

改正確後,我們發現,缺少一個data.json。檔案

程式設計師最愛的網站克隆爬取工具- HTTrack

這是因為原網站,引用了一個時間軸外掛,這個外掛挺好的,獻上下載地址。https://www.php.cn/xiazai/js/4818

那我們只能去原網站把data.json 下載下來了。

引入後,開啟網站。
成功

程式設計師最愛的網站克隆爬取工具- HTTrack

我放目錄圖你就知道了。

httrack的目錄:

程式設計師最愛的網站克隆爬取工具- HTTrack

ctrl+s的目錄:

程式設計師最愛的網站克隆爬取工具- HTTrack

好啦,今天就到這裡。如果喜歡研究爬蟲,那就給我點贊,我會出一個python爬蟲小課!

本作品採用《CC 協議》,轉載必須註明作者和本文連結

每天5分鐘,與你一起蛻變!上海php自學中心,目前專注於php,python,golang~撒花!
S3d25uqwht.png!large
公眾號7Dn78VKKcW.jpg!large

相關文章