爬蟲監控1000家企業新聞動態

lazycat_zzz發表於2017-10-11

開源一個專案 Github地址

簡介: 此專案可監控近千家中國企業的官方網站的新聞動態,如有更新,系統能在 5 分鐘之內通過郵件傳送更新的標題和連結。 更新的資訊流也可通過瀏覽器檢視。監控的公司和站點可以新增刪除。

原理: 採用 celery 任務佇列,定期抓取網站 html, 使用 difflib 比對新舊頁面原始碼,發現增加的部分,提取 url 和 text,過濾篩選,儲存 MySQL 資料庫。 定期把更新的 url 和 text,通過郵件傳送給訂閱者。

news feed
news feed

相關文章