抓取某一個網站整站的記錄
經常由於某些原因我們需要爬取某一個網站或者直接複製某一個站點,到網上找了很多工具進行測試,試了很多各有各的問題,最終選擇了Teleport Ultra,用起來效果很好;具體的操作手冊等東西就不在這裡說了,網上搜尋一下有很多,這裡主要說遇到的問題:
軟體下載地址:http://download.csdn.net/detail/ityouknow/9506423
工具截圖:
測試抓取的網站為簡單心理:www.jiandanxinli.com
抓取後的效果圖
一般我會選擇複製100級基本上也就把網站的東西全部copy下來了,但是因為Teleport Ultra 是以UTF-8的編碼進行的抓取如果檔案中有中文字元,或者gbk編碼的檔案就會出現亂碼如下圖:
當然手動在瀏覽器選擇UTF-8也可以,但是我們不能每次開啟都這樣幹吧。於是到網站找到一款軟體叫:TelePort亂碼修復工具(siteRepair-v2.0),經過測試可以解決亂碼的問題,這款工具也會清除一些無效的連結和html符號等。
軟體下載地址:http://download.csdn.net/detail/ityouknow/9506429
軟體截圖:
絕大數網站再經過這兩個步驟應該都已經OK了,但是有的網站的層級結構中用到了中文目錄或者中文的檔名就會出現亂碼,類似下面的URL地址:
http://www.xxxx.com/.com/question/除了加鎖,還有什麼方法解決資源競爭的問題?/解決方案.html
這樣網站的結構抓取下來就會出現兩種亂碼:1)資料夾名亂碼 2)檔名亂碼
遇到這個問題siteRepair-v2.0工具就會報錯,我估計是不能識別亂碼的資料夾或者檔案吧。
後來在網上找了一個PHP的程式,進行了簡單的修改測試可以解決這個問題
PHP程式碼:convert.php
<?php function listDir($dir) { if(is_dir($dir)) { if ($dh = opendir($dir)) { while (($file = readdir($dh)) !== false) { if((is_dir($dir."/".$file)) && $file!="." && $file!="..") { rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8")); listDir($dir."/".$file."/"); } else { if($file!="." && $file!="..") { $name=rename($dir."/".$file,$dir."/".str_replace(`\`,``,mb_convert_encoding($file,"GBK", "UTF-8"))); echo `路徑:`.$dir."/".$file.`<br />`; echo `結果: `.str_replace(`\`,``,mb_convert_encoding($file,"GBK", "UTF-8")).`<br />`; } } } closedir($dh); } } } ?> <?php //開始執行 listDir("./convert"); ?>
在程式碼的同級目錄下,新建 convert資料夾,把亂碼的檔案放入這個目錄,然後執行convert.php即可。
相關文章
- 記錄幾個不錯的學習網站學習網站
- 網站整站下載工具推薦【Z】網站
- [新手開發記錄] 新建一個網站網站
- 記錄一個開源專案排名網站網站
- 記錄 - 網站被 HACK!網站
- WordPress快速增加百度收錄,加快網站內容抓取網站
- 如何快速抓取網站SEO元素網站
- iOS pod刪除某一個框架記錄一下 eg: JMessageiOS框架
- 記錄一個演算法網站演算法網站
- 國外視訊網站再記錄網站
- 記錄如何用php做一個網站訪問計數器的方法PHP網站
- SEO最佳化方案:菜譜網站整站最佳化思路網站
- 網站不收錄的原因以及提升網站收錄量的方法!網站
- 爬網入門:JAVA抓取網站網頁內容Java網站網頁
- 用thinkphp寫的一個例子:抓取網站的內容並且儲存到本地PHP網站
- 談談如何抓取ajax動態網站網站
- 抓取網站訪客手機號方法網站
- 網站訪客手機號抓取方法網站
- 網站如何識別網路抓取機器人?網站機器人
- 記錄自己經常去的網站檢視資料網站
- 初次使用SQL破解某電影網站的記錄SQL網站
- 仿天貓整站三個版本的對比
- 大氣通用的H5響應式高科技整站網站原始碼H5網站原始碼
- 遍歷某一個指定目錄下的所有子目錄和檔案(遞迴)遞迴
- 爬蟲技術抓取網站資料方法爬蟲網站
- 表情黨抓取(單頁) (網站已轉移)網站
- 這個週末上線一個幫朋友做的網站,遇到挺多坑,記錄一下網站
- [新手開發記錄] 規劃網站目標網站
- 秋色園網站轉移過程記錄篇網站
- 使用Google抓取方式,測試React驅動的網站SEOGoReact網站
- 網站用於識別網路抓取機器人的最常用方法網站機器人
- Edcba網站目錄網站
- 網站備忘錄網站
- 站點優化記錄優化
- 一個很垃圾的整站爬取--Java爬蟲Java爬蟲
- 網路爬蟲小偏方:robots.txt快速抓取網站的小竅門爬蟲網站
- 方便的網路下載工具wget 可下載網站目錄下的所有檔案(可下載整個網站)wget網站
- Hyperf 開發的動漫站記錄