本篇是寫利用爬蟲技術來結構化人物做網站掙網盟收入的第三篇,也是完結篇,這篇主要寫我是怎麼思考的,是如何分析到這個領域的, 我會再舉一個我思考過的例項。
如果你是第一次看Python爬蟲掙錢系列文章,請先閱讀文末最下面的擴充閱讀,瞭解背景知識。
結構化人名的搜尋流量有這麼大嗎?
Yes. 非常大,Linkedin大家應該都知道吧,美國一個職業社交網站,簡單理解就是個人簡歷/職業資訊網站。我曾經看到Linkedin做增長黑客的一篇報導。
裡面提到了Linkedin為了增加搜尋流量,把使用者的個人檔案頁面開放給搜尋引擎索引,此舉讓Linkedin搜尋流量倍增,讓我明白了人名這一塊的搜尋流量原來如此大, 這麼多人搜尋。在這之前我的認知是隻有明星,大人物才會有人在網上搜尋,其實小人物(相對的),公司小領導,乃至平常百姓都會有人在網上搜尋。
上圖是Linkedin一個月的訪問量是10億,換算成每天是3千萬。
上圖是Linkedin的流量來源佔比,搜尋流量佔23.7%,可以想象這個流量有多麼巨大。
由此我花了很多時間去研究這塊流量的掙錢機會,發現還有很多人物是沒有百度百科,linkedin的(如果百度百科或linkedin上已經有這些人物了,你做同樣的人物有搜尋排名的概率很小),他們的資訊都零星散落在一些新聞報導,人物採訪,會議的嘉賓介紹上,需要利用爬蟲手段把這些網頁全部抓回來儲存好,然後研究使用各種文字結構化技術來提取相關跟人物相關的資訊。(這個過程很痛苦,沒毅力的就算了)。
這讓我結構化了小十萬人名,網站流量做到小四萬,每年10萬左右的網盟收入。
舉個結構化人名的例子:
之前疫苗問題的長春生物董事長:高-俊-芳,我之前也不知道這麼個人,也不知道什麼時候結構化她的資訊,事情發生第二天早上我例行檢視網站流量,發現流量異常的高,都是在搜尋她的名字。那天她的流量超過2萬,那天中午才有人在百度百科編輯上她的百科資訊。
再說一個結構化人名的機會
這個我沒有實踐過,是分析的時候曾經想過。我把視角一直放在國內,一直在結構化國內的人名,在中國有這種搜尋行為,在國外也會有這種搜尋人名的行為。為何不去做一個英語網站,關於人物介紹的英語網站呢?尋找還沒有維基百科的人物。而且英語比中文的文字處理要容易,至少不需要中文分詞,英語單詞間都是空格隔開的。
還有就是掙google adsense(類似百度網盟),掙的是美金,美金跟人名幣是1:6.7的關係,也就是同樣情況下,你在國內百度網盟一年掙10萬RMB,做google是10萬美刀(合67萬人民幣),有想法的可以深入研究下這塊的人名機會。
需要運用到的技術
1.不錯的爬蟲抓取技術(抓網頁,抓微博,抓微信公眾號)
2.不錯的文字結構化技術
對中文做文字處理,懂點自然語言處理(nlp)是必須的。
3.Web開發技術
無論是自己寫網站還是使用開源部落格系統,至少要懂得怎麼配置nginx(web伺服器),linux,mysql,python(或php)
4.搜尋引擎優化技巧
各大搜尋引擎都提供官方的優化指南,理解並按照官方規則實施即可,其實我沒有過度關注搜尋優化,因為你提供了搜尋引擎缺失的內容,它是喜歡的,你需要有耐心等待有搜尋排名的那一刻。
整合資料做網站掙搜尋流量的思考
1.結構化人名只是整合資料的一個方向之一,而且是比較累的,相信還有其他領域是有這個機會的,只是我的視野還沒有看到。整合資料做網站不是做垃圾網站,不是做拷貝複製網站,是要找到搜尋引擎還缺失的內容,去彌補這塊內容,你的網站滿足了搜尋引擎,它自然會給你的網站有搜尋排名。
典型的如企業工商資訊查詢,官方一直是有企業工商資訊網站的,但是資訊很分散,另一個就是搜尋引擎爬蟲很難爬取這類官方網站,這給了天眼查/企查查機會,把企業工商資訊全部結構化出來很方便使用者查閱,每天的搜尋流量幾十萬。
2.結構化的規模一定要大才有機會,因為這些的每一個搜尋量都非常小,只有結構化足夠規模才能積少成多。
完結
利用爬蟲抓取網頁,結構化人名做網站掙網盟收入三篇完結,再次祝關注猿人學Python的新老朋友豬年找到掙被動收入的方向。
擴充閱讀
我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。
***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***