抓取某一個網站整站的記錄

純潔的蟲紙發表於2016-04-29

經常由於某些原因我們需要爬取某一個網站或者直接複製某一個站點，到網上找了很多工具進行測試，試了很多各有各的問題，最終選擇了Teleport Ultra，用起來效果很好；具體的操作手冊等東西就不在這裡說了，網上搜尋一下有很多，這裡主要說遇到的問題：

軟體下載地址：http://download.csdn.net/detail/ityouknow/9506423

工具截圖：

測試抓取的網站為簡單心理：www.jiandanxinli.com

抓取後的效果圖

一般我會選擇複製100級基本上也就把網站的東西全部copy下來了，但是因為Teleport Ultra 是以UTF-8的編碼進行的抓取如果檔案中有中文字元，或者gbk編碼的檔案就會出現亂碼如下圖：

當然手動在瀏覽器選擇UTF-8也可以，但是我們不能每次開啟都這樣幹吧。於是到網站找到一款軟體叫：TelePort亂碼修復工具（siteRepair-v2.0），經過測試可以解決亂碼的問題，這款工具也會清除一些無效的連結和html符號等。

軟體下載地址：http://download.csdn.net/detail/ityouknow/9506429

軟體截圖：

絕大數網站再經過這兩個步驟應該都已經OK了，但是有的網站的層級結構中用到了中文目錄或者中文的檔名就會出現亂碼，類似下面的URL地址：

http://www.xxxx.com/.com/question/除了加鎖，還有什麼方法解決資源競爭的問題？/解決方案.html

這樣網站的結構抓取下來就會出現兩種亂碼：1）資料夾名亂碼 2）檔名亂碼

遇到這個問題siteRepair-v2.0工具就會報錯，我估計是不能識別亂碼的資料夾或者檔案吧。

後來在網上找了一個PHP的程式，進行了簡單的修改測試可以解決這個問題

PHP程式碼:convert.php

<?php
function listDir($dir)
{
    if(is_dir($dir))
    {
        if ($dh = opendir($dir)) 
        {
            while (($file = readdir($dh)) !== false)
            {
                if((is_dir($dir."/".$file)) && $file!="." && $file!="..")
                {
                    rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));
                    listDir($dir."/".$file."/");
                }
                else
                {
                    if($file!="." && $file!="..")
                    {
                         $name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));
                         echo '路徑：'.$dir."/".$file.'<br />';
                         echo '結果： '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';
                    }
                }
            }
            closedir($dh);
        }
    }
}
?>
<?php
//開始執行
listDir("./convert");

?>

在程式碼的同級目錄下，新建 convert資料夾，把亂碼的檔案放入這個目錄，然後執行convert.php即可。

記錄一個演算法網站
2024-04-08
演算法網站
[新手開發記錄] 新建一個網站
2020-05-16
網站
記錄一個開源專案排名網站
2024-04-08
網站
記錄 - 網站被 HACK！
2018-09-27
網站
WordPress快速增加百度收錄,加快網站內容抓取
2019-04-02
網站
如何快速抓取網站SEO元素
2021-10-19
網站
iOS pod刪除某一個框架記錄一下 eg: JMessage
2024-05-08
iOS框架
記錄如何用php做一個網站訪問計數器的方法
2024-04-22
PHP網站
網站不收錄的原因以及提升網站收錄量的方法！
2020-08-26
網站
談談如何抓取ajax動態網站
2019-03-02
網站
網站訪客手機號抓取方法
2020-10-25
網站
抓取網站訪客手機號方法
2020-10-25
網站
網站如何識別網路抓取機器人？
2022-05-07
網站機器人
大氣通用的H5響應式高科技整站網站原始碼
2019-05-11
H5網站原始碼
表情黨抓取（單頁） (網站已轉移)
2024-08-07
網站
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
這個週末上線一個幫朋友做的網站，遇到挺多坑，記錄一下
2018-05-07
網站
GitHub Pages + Hexo搭建個人部落格網站-github風格-採坑記錄
2022-04-05
GithubHexo網站
[新手開發記錄] 規劃網站目標
2020-05-20
網站
秋色園網站轉移過程記錄篇
2021-09-09
網站
仿天貓整站三個版本的對比
2020-12-21
網站用於識別網路抓取機器人的最常用方法
2021-12-08
網站機器人
網站備忘錄
2020-10-10
網站
Edcba網站目錄
2019-05-11
網站
Python網路抓取的三個常見問題
2022-06-09
Python
網路爬蟲小偏方：robots.txt快速抓取網站的小竅門
2019-01-03
爬蟲網站
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
站點優化記錄
2019-02-26
優化
實戰：如何通過python requests庫寫一個抓取小網站圖片的小爬蟲
2020-01-25
Python網站爬蟲
Hyperf 開發的動漫站記錄
2020-07-10
網站分類目錄
2019-05-11
網站
我們的網站被收錄了！
2024-08-26
網站
筆記網站
2018-09-05
筆記網站
抓取資料時總是被網站阻止怎麼辦？
2021-12-30
網站
如何讓一個網站快速被百度收錄？
2020-11-26
網站
個人記錄
2024-07-23
小白的網站開發日記必須要10個字
2021-09-09
網站
2024-07-15 記錄一則vue網站最佳化的小技巧
2024-07-15
Vue網站
記錄幾個影片嵌入網頁的html程式碼寫法
2024-11-08
網頁HTML

抓取某一個網站整站的記錄

相關文章