為什麼看部落格的時候裡面的連結總是 404
作為一個野路子程式設計師,看大牛的部落格是學習,進步的很重要的一個資訊來源。
作為一個資訊的匯聚點,部落格中總會引用些其他的經典文章,或是某開源項官方文件中的重要部分。
然而由於更新部落格是很低頻率的事件,所以隨著時間推移,很可能發生的情況是:大牛引用的另一篇文章
已經被刪除,或者乾脆域名到期,引用的部落格關門大吉;由於開源項版本升級,原先的文件已經不適用因而
官方刪除了。
So, 404…
現狀
嘗試測試了 阮一峰(http://www.ruanyifeng.com/blog/), 王垠(http://www.yinwang.org/) 等知名博主的部落格,發現幾乎都有連結失效的問題。
可見此問題很常見。
博主
大多數的博主並不是通過寫部落格盈利賺錢,所以不可能定期去檢查以前博文中的連結是否有效。
話說回來,即便真的是通過寫部落格盈利賺錢,那麼多的博文,也不太可能定期去檢查以前博文中的連結是否有效吧。。
讀者
雖然對我很不友好,破壞了上下文和文章的完整性,但是
習慣了。。認了吧。。。湊合看吧。。
中國特色
由於眾所周知的原因,中國讀者遇到引用連結不可訪問的情況更多,並且不可訪問的連結越來越多。
作為一個獨立開發者,用了若干個第三方服務,CDN 等。天有不測風雲風雲,保不齊哪天哪個服務商就黃了,或者哪個 CDN
又被牆了。。。
嘗試解決
一個可能的解決方法 link doctor
博主(站長)在網站註冊後,系統嘗試定期(每6小時1次,可設定)對網站進行一次分析,找出失效的引用的連結,或是失效的引用的資源(js, css),
並將分析結果傳送給博主(站長)。
目前剛剛有想法做這個東西,並做了個簡單的 Demo。
在檢測的全面性和精準度方面還不做保證。如果真的有博主有這個需求,請收藏、標星。如果沒有人有需求的話,就棄坑了。。
或者有什麼好的建議的話,歡迎提個 issue。
github 地址在此:
https://github.com/FingerLiu/…
待解決問題
- 爬蟲被 ban
- 由於國內和國內網路環境不同,分別部署不同的伺服器
- 什麼需要檢測什麼不需要
- 對引用的連結進行備份(snapshot)。