利用爬蟲掙錢系列2-細說資料整合

王平發表於2018-12-04

上一篇寫了個利用爬蟲掙錢的框架,這篇寫細一點,我曾經做過的一個簡單資料整合掙網盟收入的案例。

Python爬蟲掙錢之二

上一篇講述了企查查/天眼查這類提供企業工商資訊查詢服務,他的企業立家根本就是抓取企業工商資訊和整合這些資料的能力,這在抓全率和準確性上要求頗高,這需要一個團隊來完成才行。

我在研究這類公司流量來源時,觀察到從搜尋引擎來的流量不錯,就在思考做一個簡易版的企業工商資訊查詢用於獲取搜尋流量。

你要問:為什麼已經有幾個這類網站了,我還要做這個呢?

因為中國有幾千萬家公司,每一家公司都是一張網頁的話,就有幾千萬張網頁,從SEO(搜尋引擎最佳化)來講,你的網頁越多,薅到的搜尋流量機率就大一點,如果只是幾千幾萬個網頁,你薅到流量的機率可能是0,但是量級到千萬時,你的機會就被放大了。

你還要在問:你都是抓人家的網頁,搜尋引擎憑什麼給你排名,給你流量?

第一,已有的網站 在SEO的標題關鍵詞設定上 還有做得更好的空間。
第二,我肯定不是全複製,會糅雜一些內容在裡面。
第三,機率問題,因為有幾千萬個網頁(這些頁面內容是有價值的),足夠多,有機率做到有排名和有流量的可能性。
(搜尋引擎排名雖然有演算法控制,我估計還寫了大量的規則在控制,規則寫多了有個缺陷,就是自己都搞不清楚規則間的關聯性了。開玩笑的!)

就這樣我就擼起袖子開始寫爬蟲了,大約寫了四周多,因為需要撥號換IP,就買了一個歪的可以撥號的雲主機,中間大部分時間都在解決這臺雲主機的自身限制問題,這臺主機只有500M空餘記憶體,1G多空餘硬碟空間,我大部分時間都在想怎麼把這幾千萬家工商資訊html放進1G多的硬碟裡,怎麼把爬蟲的執行記憶體控制在500M以內。

由於是個單臺爬蟲程式,把網頁抓取完又用了1個多月。這中間還到國慶放假,白天就在瀘沽湖晚,晚上就在房間裡除錯程式,fxxk,網頁又改版了,賬號又不能用了,程式咋又停掉了呢,當程式設計師就是一直陷在這種程式碼除錯,不斷口唸fxxk的生活中。

這抓取的過程間隙,我找了一個前端同事寫了個最簡單html網站,只有5,6個頁面,真的是簡單。我就在想後端程式的問題,就我一個人一杆槍,還是個前途未卜的網站,不可能寫個很好的後端程式,關鍵是資料庫裡有幾千萬條資料,要支援各種分類查詢,翻頁操作,於是就想辦法針對這個業務本身的性質做最佳化,在資料庫操作和快取上做特定的方式,這樣我就可以一個人搞定所有,任何查詢都在幾百毫秒內響應。這個借鑑了大V caoz寫資料索引文章的思路。

資料抓完,網站上線,提交了搜尋引擎,那個網站基本沒人管,過了大半年後有小几萬IP,每個月的網盟收入有幾千塊,現在流量和收入都還在往上漲,雖然對於公司來說算少的,但是隻花了兩月時間,後續沒有維護,產出比還是可以的。

PS:還是強調,抓取的資料和商用資料,要合法合規,現在的尺度越來越收緊了。

猿人學banner宣傳圖

我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。

***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***

相關文章