從98年google以搜尋技術起家開始,網際網路至今,以提供內容為主的網際網路企業每一家都離不開小爬蟲的幫助,大到網際網路巨頭,小到剛成立沒幾天的創業公司, 在早期沒有足夠內容來撐住自家網站和app時,都會採取抓取手段來補充內容,讓自家產品顯得內容滿滿。
還有好些公司的商業模式就建立在爬蟲技術之上的,比如搜尋引擎公司、大資料處理公司、網路輿情監控公司,沒有資料,他們的公司就沒法運轉。
另外現如今網際網路公司的獲客成本上升,出現了增長黑客這個概念,裡面的大量運營技巧都是要依賴於爬蟲技術的手段來驅動,這裡不是指抓資料,而是模仿使用者請求,模仿使用者操作,自動發貼等手法來新增和啟用使用者。
接下來老猿就來淺談幾家在這方面做得成功的公司。
1.提到爬蟲,必然會說起搜尋引擎,它是直接利用爬蟲抓取資訊來構建底層服務的。簡單粗暴,但是直接有效,而如今世界上最大的兩家搜尋引擎服務公司(google和百度),已分別是7千億和600億美金市值。
2.現在已是國民資訊app的今日頭條,早期通過抓取數百家機構的新聞源,然後以技術手段來分發給使用者,做到千人千面的閱讀體驗,現在已是中國網際網路公司第三極。
這也是一個在早期直接利用爬蟲手段而成功的例子,如果不抓取別人的新聞資訊,今日頭條根本不可能成功。
3.做職場社交,獲得2億美金投資的脈脈,早期直接抓取微博使用者資訊,用來彌補自身使用者數量的不足,完成了脈脈早期幾百萬使用者積累,不過脈脈抓取微博使用者資訊已被法院判決為非法,做社交媒體和輿情監控的估計沒幾家沒抓過微博的資料吧。要小心噢。
當下隨著國家智慧財產權法規越來越完善和嚴格,這種直接抓取別人資訊然後直接商業化的行為夠你進去蹲幾年了。所以要慎重哦!!!
每個時代都有它所謂的企業原罪,8090年代是企業產權不明,要論網際網路時代的原罪估計就是企業早期冷啟動時抓取的內容是否應該直接商業化吧。
如果現在再做一個類似搜尋引擎和今日頭條的產品,不解決版權問題,會隨時被請喝茶吧。那麼現在爬蟲抓取的內容就不能商業化了嗎?
也不盡然,比如政府公開的資料是可以直接商用的。
4.在企業工商資訊查詢領域另闢蹊徑的天眼查/企查查。 這兩家企業把各個省,市的官方几千萬家工商資訊抓取出來,結構化整合後提供給使用者查詢,讓人眼前一亮。
這個APP已成為創業者,投資人,老闆們的標配APP,查詢法人資訊,企業股權結構等等一目瞭然。類似的資料還有商標,專利,法院判決文書等等
另外在電商領域抓取各家電商平臺做比價網站一直是一個商業模式,比如即將在A股上市的什麼值得買,把各家電商網站的商品和價格抓取過來,把他們的價格差異展示出來,方便使用者檢視哪家網站的便宜,但是後來各家電商網站都把價格資訊圖片化之後,解析準確價格的難度就加大了不少。
再比如在納斯達克上市,後又被私有化的去哪兒網,在早期能夠崛起成為一個機票和酒店預定的流量入口,就是他的搜尋比價模式,實時抓取各家機票和酒店資訊,把價格差異展示出來,而這正擊中了使用者想要買便宜的需求。
用抓取的資料發展成為一個商業模式的例子還有很多,以上舉了幾個較為知名的,還有老猿瞭解的很多個人站長,自由職業者都是靠著抓取和整合資料做出了不錯的流量和使用者,每年有不菲的收入,在面朝大海,春暖花開的地方,吃著火鍋,喝著小酒,以後再為大家一一道來。
我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。
***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***