爬蟲技術不只是用來抓資料

王平發表於2019-01-07

寫爬蟲抓資料只是爬蟲技術的應用方向之一,一個公司可以靠著爬蟲技術引來倍增的流量/使用者, 完成關鍵的冷啟動,還能用來打敗對手;個人可以利用爬蟲技術獲得被動收入,俗稱趟掙。 這篇聊一下公司篇。

爬蟲技術不只是用來抓資料

定義下爬蟲技術
為了抓資料所運用的模擬登入、模擬賬號、養IP/賬號池、抓包分析、模擬使用者訪問等技術手段,我們稱為爬蟲技術。

典型的如:一鍵釋出功能
一個自媒體人會維護多個自媒體平臺, 如頭條,微信公眾號,簡書,知乎專欄,搜狐自媒體等等,同一篇稿子會往這十幾個平臺搬運,靠人去挨個平臺編輯耗時耗力,所以衍生出做一鍵釋出文章到各個自媒體平臺的公司。

一鍵釋出所用到的主要技術就是模擬登入和模擬提交post請求,誰家能提供好用穩定的同步功能誰就勝出。

一鍵釋出技術可以運用在很多事情中,比如一鍵釋出視訊到多個視訊網站;一鍵釋出活動到多個活動報名平臺,一鍵釋出旅遊攻略到多個旅行網站,只要那個行業存在多個同類公司,就有可能衍生出一鍵釋出需求。

Airbnb的冷啟動
共享住宿的鼻祖Airbnb早期的使用者量和客房量不足,而分類資訊釋出平臺Craigslist擁有龐大的使用者量,Airbnb想從Craigslist網站上分走一些流量。

就想出一個辦法,以前房東只在Craigslist釋出租房資訊,Airbnb告訴房東你們在我這釋出資訊後,我們可以自動幫你同步資訊到Craigslist上,房東一想挺好的,編輯一次在Airbnb和Craigslist就都有了,這樣從Craigslist那裡吸引了很多房東到Airbnb釋出租房資訊。

這背後的技術其實就是上面說的一鍵釋出功能,就是模擬對方網站的post請求。這讓Airbnb基本是零成本獲得了數十萬新增房源。

一個獲得30w使用者的自動對話機器人
產品牛人純銀之前做了一款旅遊攻略產品禪遊記,起初使用者很少,增長較慢,他們想出來一個破解辦法。

就是使用者在旅遊過程中會在微博上發博分享心情,於是他們寫了一個簡單的自動對話機器人,自動在微博上搜尋尋找旅遊的人,然後給他們私信對話,總體意思就是想讓這類使用者去他們網站發旅遊攻略。靠著這一招,在微博上薅到30萬使用者去他們網站。後來禪遊記被攜程收購了。

這裡面的技術點就是維護多賬號模擬登入微博,自動搜尋,抓包分析私信的各種引數填充,控制頻率等。

說到這裡了,就再囉嗦一點。
這些其實主要跟運營相關,所用到的技術沒那麼複雜,用Python爬蟲來做也沒那麼難,但為什麼要講這些例子呢?

之前在工作中遇到幾次,技術同事給我說運營天天讓他寫自動發帖,模擬對方網站請求功能,而且不穩定,天天讓他改,他覺得沒技術含量,想辭職,他立刻批准了,在他眼裡他只看到對自己有沒有好處,在我眼裡我看到是對公司有沒有好處,做這些事情從統計資料來看對公司的流量和訂單很有幫助。

我們每年都渴望升職加薪,跟公司利益一致的人獲得加薪概率更大,如果你長久在一家公司工作,主要是靠著公司的不斷成長來獲得自己的收益,如果公司不成長了,你的收益也會跟著下降,除非不斷跳槽跳來跳去。

撤遠了。
文章首發於我的公眾號:猿人學Python

猿人學banner宣傳圖

我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。

***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***

相關文章