教你用程式檢測抄襲/文章去重

紅皮橘子發表於2019-07-01

中國人有句話叫“天下文章一大抄”,但是在正規場合下“抄”是要付出代價的,比如考試、寫論文是不能抄的,一旦被發現後果相當嚴重。在網際網路出現之前,“抄”很不方便,一是“源”少,而是釋出渠道少;而在網際網路出現之後,“抄”變得很簡單,鋪天蓋地的“源”源源不斷,釋出渠道也數不勝數,部落格論壇甚至是自建網站,而爬蟲還可以讓“抄”完全自動化不費勁。這就導致了網際網路上的“文章”重複性很高。這裡的“文章”只新聞、部落格等文字佔據絕大部分內容的網頁。

enter image description here

我在猿人學網站上寫了一個《大規模非同步新聞爬蟲》的Python爬蟲教程,裡面涉及瞭如何抓取網頁、如何提取正文內容,卻沒有將如何去重。中文新聞網站的“轉載”(其實就是抄)現象非常嚴重,這種“轉載”幾乎是全文照抄,或改下標題,或是改下編輯姓名,或是文字個別字修改。所以,對新聞網頁的去重很有必要。

文章分三部分:去重演算法原理、演算法實現、以及使用方法

由於篇幅有限,感興趣的可以點選原文檢視

相關文章