使用wget命令進行整站下載

pythontab發表於2013-02-05

原文網址 : https://www.pythontab.com/html/2013/linuxkaiyuan_0205/213.html

網上流傳著各種整站下載的軟體，號稱軟體功能有多強大，但是結果不盡人意啊。其實我們手頭就有一個功能異常強大的工具 -- wget命令。以前就知道wget有做網站映象的功能，於是就折騰了一下，使用中遇到一些問題，最後得到了wget命令列：

wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/upload/ http://www.pythontab.com

為了讓這個命令列的各選項意義更加明確，它還可以寫成：

wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude /upload/ http://www.pythontab.com

使用wget複製網站時的一些選項

下面對其中的各選項簡要說明，做備忘之用。

‘-e command’

‘--execute command’

用來執行額外的.wgetrc命令。就像vim的配置存在.vimrc檔案中一樣，wget也用.wgetrc檔案來存放它的配置。也就是說在wget執行之前，會先執行.wgetrc檔案中的配置命令。一個典型的.wgetrc檔案可以參考：

使用者可以在不改寫.wgetrc檔案的情況下，用-e選項指定額外的配置命令。如果想要制定多個配置命令，-e command1 -e command2 ... -e commandN即可。這些制定的配置命令，會在.wgetrc中所有命令之後執行，因此會覆蓋.wgetrc中相同的配置項。

這裡robots=off是因為wget預設會根據網站的robots.txt進行操作，如果robots.txt裡是User-agent: * Disallow: /的話，wget是做不了映象或者下載目錄的，使用-e robots=off引數即可繞過該限制。

-w seconds

--wait=seconds

為了不給被複製的映象網站帶來太大的訪問壓力，頁面請求之間停下等待seconds時間。

-x

--force-directories

建立與映象網站對應的目錄結構。 http://www.example.com/robots.txt這個檔案下載下來時，會等到對應的www.example.com/robots.txt。與之相反的是-nd，即--no-directories，

-np

--no-parent

只下載給定的目錄下的檔案，不下載它的上級目錄中的檔案，即使有些頁面中存在上級目錄中檔案的連線。這個比較必要，如果不限定的話，本來只想下載www.example.com/blog/中的部落格文章，最後很有可能將整個www.example.com都下載下來了。

-p

--page-requisites

下載能顯示整個頁面需要的所有資源，包括內嵌的image以及css樣式檔案。

-m

--mirror

它會開啟映象相關的選項，比如無限深度的子目錄遞迴下載。

-k

--convert-links

這個選項會在整個網站下載完成後修HTML、CSS、Image等資源的連結關係，讓它們都指向下載下來的本地檔案，從而適合本地瀏覽。

-t times

--tries=times

如果某個資源下載失敗，這個選項指定了重試下載的次數。.wgetrc預設的是20次。我們在下載網站時可以將其放小，一則減少下載時間，二則減輕映象站點的壓力。

-X /some/dir

--exclude /some/dir

可以用這個引數指定不需要下載的目錄，如果有多個需要排除的目錄，可以用逗號隔開，比如

-X /some/dir1;/some/dir2

Linux基礎命令---wget下載工具
2019-06-21
Linuxwget
B站下載
2024-11-06
-bash: wget: 未找到命令
2022-07-22
wget
Linux 通過wget命令,直接下載安裝jdk1.8
2018-06-23
LinuxwgetJDK
執行wget命令，出錯：無法建立 SSL 連線。
2021-03-18
wget
網站下載工具：SiteSucker for mac
2024-01-14
網站Mac
SiteSucker for mac(網站下載工具)
2023-02-03
Mac網站
wget遞迴下載
2024-03-13
wget遞迴
wget命令8種實用用法
2021-10-22
wget
網站下載工具：SiteSucker Pro for Mac
2024-01-09
網站Mac
使用nginx進行負載均衡
2022-10-08
Nginx負載
wget使用proxy的配置
2019-03-12
wget
使用 preloadComponents 進行元件預載入
2024-08-18
元件
SiteSucker for mac(網站下載工具)v4.3.1
2021-12-29
Mac網站
使用describe命令進行Kubernetes pod錯誤排查
2018-11-20
Mac使用brew安裝wget
2020-12-28
Macwget
linux系統中既沒有yum命令也沒有wget命令
2024-07-06
Linuxwget
使用 Linux 命令列與其他使用者進行通訊
2020-03-22
Linux命令列
Dynamics CRM 如何使用命令列進行安裝
2018-12-14
命令列
整站下載工具：SiteSucker Pro Mac中文版
2023-05-12
Mac
SiteSucker Mac版(整站下載工具)中文版
2020-09-13
Mac
使用 PHP 進行建立檔案並在下載後進行刪除
2020-05-10
PHP
Git - 使用命令和P4Merge進行diff
2018-03-21
Git
網站下載工具SiteSucker專業版：SiteSucker Pro for Mac
2024-01-14
網站Mac
wget 命令提示 “use ‘--no-check-certificate’” 臨時解決方法
2019-09-04
wget
Linux常用網路傳輸工具命令，ssh、curl、wget、scp
2024-06-06
Linuxwget
wget下載提示：無法建立SSL連線
2018-11-20
wget
如何使用diff 和 patch 命令對檔案進行協作？
2022-01-01
使用Prerender.io進行網站預載入
2019-08-14
網站
使用JMeter進行負載測試快速入門
2020-12-10
JMeter負載
SiteSucker for mac(網站下載工具) v5.1.13漢化版
2023-10-29
Mac網站
SiteSucker for mac(網站下載工具) v4.0.3漢化版
2021-01-13
Mac網站
SAP Hybris使用recipe進行安裝時，是如何執行ant命令的？
2020-07-15
小破站下載，清晰度高，使用簡單--嗶哩下載姬(解決無法掃碼登陸)
2024-12-02
使用AWK規整KyLin日誌改進
2018-06-27
LOL射手改版細節調整英雄與裝備將進行整體調整ID
2022-03-20
curl wget bond
2024-11-22
wget
HTTPie：替代 Curl 和 Wget 的現代 HTTP 命令列客戶端
2019-04-22
HTTPwget命令列客戶端
Hadoop進階命令使用介紹
2020-07-13
Hadoop

使用wget命令進行整站下載

相關文章