(30 hackdays day 22) Import.io - 最簡單好用的網頁爬蟲服務

fxp發表於2014-11-01

原文網址 : https://segmentfault.com/a/1190000000752233

Import網頁爬蟲

import.io，一個2012年成立的公司。至今已經有3m刀的...種子輪...為毛...

注意，這是一篇由腦殘和圖片組成的文章。

圖片描述

anyway，import.io是我用過最簡單的爬蟲，沒有之一。簡單到...只要輸入一個網址（當然其實它可以更簡單到不用輸入http://），就可以獲得一個該頁面對應的API。更牛逼的是，這是一個我想尋找付費服務卻尋覓不得的產品！

兩步得到網站API

開啟https://magic.import.io/ 輸入要爬取的網址，比如http://producthunt.com
調整你需要的資料列，比如把url_link那列改為title
點選下面的GET API...

然後import.io就會給出一個GET API，一個POST API，甚至還有直接從Google sheets取資料的地址！

圖片描述

這個API足夠足夠簡單吧！也不用[o]auth就直接拿資料！唯一可惜的一點是，似乎它有一些延遲，沒法很實時獲得資料（也正是這時候我開始滿頁面找pricing...）。

除了GET以外，你還可以往裡拽（POST）其他URL，很適合那種同構的多頁爬取。

當然，雖然你覺得Http GET已經足夠簡單了，但import.io不這麼認為，它覺得你還是需要SDK的...好吧，其實我是為了展示他的API doc頁面...裡紅色的那部分！想起了一個以前看到過別人分享的註釋

//Attempt Handshake: Hello? This is London calling. Are we reaching you?
//Handshake Failed: I don't understand...he just hung up.

圖片描述

import.io不光是一個爬網頁的平臺，它還提供儲存，搜尋（是的...）等服務。贊一下里面的文件樣式。

圖片描述

App

一個爬蟲用的桌面App？想到了啥？像瀏覽器一樣，圈圈點點？
從這裡下載import.io的桌面應用，安裝完了去桌面開啟（誰知道為啥它不扔launcher裡...），splash都cute到死...

圖片描述

開啟以後呢，發現呢，就是個firefox核心的瀏覽器...區別就在與在這個app裡可以使用chrome裡無法使用的API from URL 2.0，API from Authenticated URL這些功能。估計就是為了把各種登陸cookie都很容易拿到，所以就做了個瀏覽器的殼吧。

用起來才發現這簡直是...簡直了...找到要爬的頁面，滑鼠選擇要爬取的內容，搞定以後publish就可以產生一個某類頁面的API了，以後只需要把新的文章URL扔給他就ok了。

圖片描述

可以看出import.io其實沒有diffbot那麼智慧，但對於那些懶得寫xpath的程式設計師，import.io真的很方便！說到xpath，似乎我真的好久沒寫過了...可以看出import.io也是用xpath來實現的。

圖片描述

好啦，這篇真的是一行程式碼都沒有（這完全是為了配合import.io的好用好吧）...好吧，我有姿勢我自豪~

Node.js學習之路22——利用cheerio製作簡單的網頁爬蟲
2019-02-16
Node.js網頁爬蟲
Python3 | 簡單爬蟲分析網頁元素
2018-11-30
Python爬蟲網頁
情況最簡單下的爬蟲案例
2020-03-06
爬蟲
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
python最簡單的爬蟲 , 一看就會
2018-06-14
Python爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
python簡單爬蟲(二)
2018-04-18
Python爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
網頁爬蟲--未完成
2020-10-04
網頁爬蟲
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
go語言實現簡單爬蟲獲取頁面圖片
2022-11-14
Go爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
phpspider簡單快速上手的php爬蟲框架
2020-02-17
PHPIDE爬蟲框架
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
【爬蟲】網頁抓包工具--Charles的使用教程
2018-12-19
爬蟲網頁
簡單網頁
2020-10-02
網頁
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
Laravel 手動搭建簡單的資料爬蟲
2019-11-28
Laravel爬蟲
一個簡單的爬蟲頭部構造
2020-11-22
爬蟲

(30 hackdays day 22) Import.io - 最簡單好用的網頁爬蟲服務

兩步得到網站API

App

相關文章