WordPress自動採集釋出文章01-使用火車頭採集目標網站

huangbangqing12發表於2018-07-08

火車頭採集目標網站有什麼好處

火車頭採集目標網站有什麼好處呢?

它會根據我們指定的網站進行採集,採集到的內容和我們網站的內容相關性高。

為什麼不用站群軟體採集呢?站群軟體和火車頭採集的方式不一樣,站群軟體用的是泛採集,而火車頭是定向採集。泛採集是指:根據我們所設計的關鍵詞,搜尋相關內容進行採集,比如說,站群軟體內建了幾千個網站,然後從這些網站中來採集內容,這些內容是根據你設定的關鍵詞來搜尋的。然後索引幾千個網站來採集相關內容,這些網站一般都是門戶站,或者是通過搜尋引擎來索引一些百度知道相關內容,這會導致用站群軟體採集的文章質量不高,並且採集的文章重複率會很高,因為你採集的文章別人也可能採集了,因為用站群軟體的人不只你一個。

所以說,火車頭採集的好處就是:我想採集哪個網站就採集哪個,網站內容的相關性更高。文章質量也會更加高一些。

如何自主學習火車頭採集

可以訪問這個網站:火車頭論壇使用教程

實戰採集步驟

我這裡來演示火車頭如何採集:

比如說,我來採集虛幻私塾的文章:

1.開啟火車頭,新建任務

首先任務名取為:“虛幻私塾”

這裡分三步:

  • 採集網址規則
  • 採集內容規則
  • 釋出內容設定

這一節,我們講解前2步:

首先,我們先新增採集的網址,

  • 單條網站:採集制定的網頁
  • 批量/多頁:採集文章列表

那在這裡,虛幻私塾有很多列表,我們就以批量多頁來做示範:如下圖所示,完成後,點選“新增“ 和 ”完成”

You must be logged in to view the hidden contents.

這樣,我們就定義好了規則。

點選“測試網址採集”:

就可以看到:所有的分頁都被採集到了:

點選“返回修改設定”。接著再點選儲存。

然後右鍵任務名稱“虛幻私塾”,點選“編輯任務”:

從第一步隨意找到一篇文章,雙擊,即可以這篇文章為典型文章採集了。

我們會看到採集到的文章內容有很多html標記,所以我們需要對內容定義一個“規則”。

這裡先把“作者”“時間”“出處”刪除。

然後對標題和內容進行篩選:

標題:

  • 開始:<span class=”course-detail-heading”>
  • 結束:<span

內容:

  • 開始:<div class=”col-lg-9 col-md-8 course-detail-content”>
  • 結束:<div class=”panel panel-default hidden-xs pt10″>

這裡可以不斷的測試,採集出來的資料是否正確,如果沒有問題

儲存設定,然後勾選採網址,採內容。

接著開始採集即可。

採集完成後,我們可以檢視下采集的資料是否正確:

如果都有,說明採集的資料符合我們的要求。

相關文章