(30 hackdays day 22) Import.io - 最簡單好用的網頁爬蟲服務

fxp發表於2014-11-01

import.io,一個2012年成立的公司。至今已經有3m刀的...種子輪...為毛...

注意,這是一篇由腦殘和圖片組成的文章。

圖片描述

anyway,import.io是我用過最簡單的爬蟲,沒有之一。簡單到...只要輸入一個網址(當然其實它可以更簡單到不用輸入http://),就可以獲得一個該頁面對應的API。更牛逼的是,這是一個我想尋找付費服務卻尋覓不得的產品!

兩步得到網站API

  1. 開啟https://magic.import.io/ 輸入要爬取的網址,比如http://producthunt.com
  2. 調整你需要的資料列,比如把url_link那列改為title
  3. 點選下面的GET API...

然後import.io就會給出一個GET API,一個POST API,甚至還有直接從Google sheets取資料的地址!

圖片描述

這個API足夠足夠簡單吧!也不用[o]auth就直接拿資料!唯一可惜的一點是,似乎它有一些延遲,沒法很實時獲得資料(也正是這時候我開始滿頁面找pricing...)。

除了GET以外,你還可以往裡拽(POST)其他URL,很適合那種同構的多頁爬取。

當然,雖然你覺得Http GET已經足夠簡單了,但import.io不這麼認為,它覺得你還是需要SDK的...好吧,其實我是為了展示他的API doc頁面...裡紅色的那部分!想起了一個以前看到過別人分享的註釋

//Attempt Handshake: Hello? This is London calling. Are we reaching you?
//Handshake Failed: I don't understand...he just hung up.

圖片描述

import.io不光是一個爬網頁的平臺,它還提供儲存,搜尋(是的...)等服務。贊一下里面的文件樣式。

圖片描述

App

一個爬蟲用的桌面App?想到了啥?像瀏覽器一樣,圈圈點點?
這裡下載import.io的桌面應用,安裝完了去桌面開啟(誰知道為啥它不扔launcher裡...),splash都cute到死...

圖片描述

開啟以後呢,發現呢,就是個firefox核心的瀏覽器...區別就在與在這個app裡可以使用chrome裡無法使用的API from URL 2.0,API from Authenticated URL這些功能。估計就是為了把各種登陸cookie都很容易拿到,所以就做了個瀏覽器的殼吧。

用起來才發現這簡直是...簡直了...找到要爬的頁面,滑鼠選擇要爬取的內容,搞定以後publish就可以產生一個某類頁面的API了,以後只需要把新的文章URL扔給他就ok了。

圖片描述

可以看出import.io其實沒有diffbot那麼智慧,但對於那些懶得寫xpath的程式設計師,import.io真的很方便!說到xpath,似乎我真的好久沒寫過了...可以看出import.io也是用xpath來實現的。

圖片描述

好啦,這篇真的是一行程式碼都沒有(這完全是為了配合import.io的好用好吧)...好吧,我有姿勢我自豪~

相關文章