(1)使用superagent和cheerio構建簡單爬蟲

weixin_34007291發表於2016-07-20

構建爬蟲需要兩步 :

  • 請求網頁,此時需要用到superagent
  • 獲取網頁html中的元素資料,此時需要用到cheerio

我們準備構建一個爬蟲來摘取簡書網頁中的資料。

617881-09c8eae50e2cba02.png
簡書.png

首先檢視一下簡書主頁返回的html檔案:

617881-e474e988009ca94a.png
jianshu_html.png

可以看到其中的文章列表格式為:

<h4 class="title">
  <a target="_blank" href="/p/6d7d50a12e58">簡書晚報160720——《說到吃,明代皇帝口味有多重?》</a>
</h4>

程式碼如下:

617881-0aea4526ab5cc0dc.png
crawler_code.png

操作結果:

617881-b63152e77dd2b539.png
crawler_result.png

相關文章