為什麼看部落格的時候裡面的連結總是 404

FingerLiu發表於2019-02-16

為什麼看部落格的時候裡面的連結總是 404

作為一個野路子程式設計師,看大牛的部落格是學習,進步的很重要的一個資訊來源。
作為一個資訊的匯聚點,部落格中總會引用些其他的經典文章,或是某開源項官方文件中的重要部分。
然而由於更新部落格是很低頻率的事件,所以隨著時間推移,很可能發生的情況是:大牛引用的另一篇文章
已經被刪除,或者乾脆域名到期,引用的部落格關門大吉;由於開源項版本升級,原先的文件已經不適用因而
官方刪除了。
So, 404…

現狀

嘗試測試了 阮一峰(http://www.ruanyifeng.com/blog/), 王垠(http://www.yinwang.org/) 等知名博主的部落格,發現幾乎都有連結失效的問題。
可見此問題很常見。

博主

大多數的博主並不是通過寫部落格盈利賺錢,所以不可能定期去檢查以前博文中的連結是否有效。
話說回來,即便真的是通過寫部落格盈利賺錢,那麼多的博文,也不太可能定期去檢查以前博文中的連結是否有效吧。。

讀者

雖然對我很不友好,破壞了上下文和文章的完整性,但是
習慣了。。認了吧。。。湊合看吧。。

中國特色

由於眾所周知的原因,中國讀者遇到引用連結不可訪問的情況更多,並且不可訪問的連結越來越多。

作為一個獨立開發者,用了若干個第三方服務,CDN 等。天有不測風雲風雲,保不齊哪天哪個服務商就黃了,或者哪個 CDN
又被牆了。。。

嘗試解決

一個可能的解決方法 link doctor

https://doctor.dry.ninja/

博主(站長)在網站註冊後,系統嘗試定期(每6小時1次,可設定)對網站進行一次分析,找出失效的引用的連結,或是失效的引用的資源(js, css),
並將分析結果傳送給博主(站長)。

目前剛剛有想法做這個東西,並做了個簡單的 Demo。
在檢測的全面性和精準度方面還不做保證。如果真的有博主有這個需求,請收藏、標星。如果沒有人有需求的話,就棄坑了。。
或者有什麼好的建議的話,歡迎提個 issue。

github 地址在此:
https://github.com/FingerLiu/…

待解決問題

  • 爬蟲被 ban
  • 由於國內和國內網路環境不同,分別部署不同的伺服器
  • 什麼需要檢測什麼不需要
  • 對引用的連結進行備份(snapshot)。

相關文章